Домен применимости: почему он критически важен для корректного использования моделей ИИ в химии
2025-12-26 17:43
При работе с предсказательными моделями в химии пользователи часто сталкиваются с тем, что одна и та же модель работает идеально в одних случаях и нестабильно — в других. Причина проста: каждая модель обучена на определённом наборе данных и хорошо «знает» только те структуры, которые похожи на примеры из этого набора. Эта граница называется доменом применимости (applicability domain).
Что такое домен применимости?
Домен применимости — это область химического пространства, в пределах которой модель гарантирует адекватность своих предсказаний.
Модель уверена в себе только там, где она видела похожие молекулы при обучении. За пределами — может ошибаться.
Почему это важно?
Если использовать модель вне её домена применимости:
возрастает риск большой ошибки в прогнозах,
модель может давать физически некорректные значения,
пользователь может принять неверное решение в R&D (подбор реагентов, скрининг растворителей, приоритизация синтеза, токсичность и др.).
Как понять, что вы выходите за домен применимости?
Современные системы (включая Синтелли) оценивают это автоматически. Ориентироваться можно на:
Структурное расстояние — насколько молекула похожа на обучающие
Конфигурацию функциональных групп — есть ли у модели опыт по этим группам.
Статистические методы — расстояние до ближайших точек, плотность распределения, ансамблевые оценки.
Чем дальше молекула от данных, на которых обучалась модель, тем менее надёжно предсказание.
Как Синтелли работает с доменом применимости?
Численное значение домена применимости можно найти рядом с каждым предсказанным свойством в карточке молекулы:
Проценты говорят о том, насколько можно доверять предсказанию.
Зелёное – полностью в домене применимости, предсказание хорошее и ему можно доверять.
Жёлтое – отчасти в домене применимости, предсказание может быть ненадежным, исследователю следует проявлять осторожность при принятии решений на основе этих данных
Красное – почти вне домена применимости, предсказание является ненадежным, риск большой ошибки значительно возрастает, хотя результат теоретически может оказаться верным.
Отсутствующее предсказание – полностью вне домена применимости, модели не стоит доверять (предсказание скрыто).
Домен применимости — это механизм, который защищает исследователя от неверных интерпретаций. Понимание границ модели и внимательное отношение к предупреждениям системы помогают получать более надёжные научные результаты.