Определение неизвестных веществ в сложных смесях производится с помощью поиска масс-спектра, наиболее похожего на масс-спектр образца, в библиотеках эталонных масс-спектров (NIST/EPA/NIH). Однако различные вещества могут обладать похожими масс-спектрами; существуют вещества с характерными масс-спектрами. Кроме того, масс-спектр исследуемого образца может быть обеднен или искажен шумами; в результате правильно идентифицировать удается только 70-90% веществ даже в тех случаях, когда исследуемое соединение присутствует в библиотеке. Следовательно, для 30% образцов поиск по библиотеке может указать неправильное соединение в качестве соединения, имеющего наиболее близкий к масс-спектру исследуемого вещества масс-спектр.
Для повышения надежности результатов в запрос поиска добавляется дополнительная, независимая от масс-спектра, характеристика вещества — хроматографический индекс удерживания. Вопрос состоит в том, как именно учитывать индекс удерживания при расчете сходства пар. Расчеты по 11 тысячам образцов показали, что наибольший процент правильных идентификаций при поиске по библиотеке достигается тогда, когда сходство пары «масс-спектр — индекс удерживания» рассчитывается по линейной формуле с единственым настраиваемым параметром - весом, с которым учитывается разница индексов удерживания экспериментального и эталонного образцов.
Линейная формула расчета сходства дала больший процент правильных идентификаций, чем популярный пороговый метод, при котором отбрасываются образцы, индекс удерживания которых сильно отличается от исследуемого.
К сожалению, из включенных в библиотеки масс-спектров лишь у приблизительно 30% веществ присутствует информация об индексе удерживания; в этом случае неплохой результат дают индексы удерживания, рассчитанные по строчной записи структуры молекулы с помощью глубокой 1D-сверточной нейросети. Применение такой нейросети позволило снизить погрешность при предсказании индекса удерживания с 3-5% до 2-3% и многократно увеличить скорость расчетов.
Полученные результаты могут быть использованы для совершенствования программного обеспечения для работы с библиотеками масс-спектров для идентификации неизвестных соединений — в экологии, пищевой промышленности и фармацевтике.
По материалам: Matyushin, D.D., Sholokhova, A.Y., Karnaeva, A.E. and Buryak, A.K., 2020. Various aspects of retention index usage for GC-MS library search: A statistical investigation using a diverse data set. Chemometrics and Intelligent Laboratory Systems, p.104042. DOI:10.1016/j.chemolab.2020.104042
Материал подготовлен: Ольга Макарова / Пресс-служба ИФХЭ РАН