Домен применимости: почему он критически важен для корректного использования моделей ИИ в химии

2025-12-26 17:43

При работе с предсказательными моделями в химии пользователи часто сталкиваются с тем, что одна и та же модель работает идеально в одних случаях и нестабильно — в других. Причина проста: каждая модель обучена на определённом наборе данных и хорошо «знает» только те структуры, которые похожи на примеры из этого набора. Эта граница называется доменом применимости (applicability domain).

Что такое домен применимости?

Домен применимости — это область химического пространства, в пределах которой модель гарантирует адекватность своих предсказаний.

Модель уверена в себе только там, где она видела похожие молекулы при обучении. За пределами — может ошибаться.

Почему это важно?

Если использовать модель вне её домена применимости:

возрастает риск большой ошибки в прогнозах,
модель может давать физически некорректные значения,
пользователь может принять неверное решение в R&D (подбор реагентов, скрининг растворителей, приоритизация синтеза, токсичность и др.).

Как понять, что вы выходите за домен применимости?

Современные системы (включая Синтелли) оценивают это автоматически. Ориентироваться можно на:

Структурное расстояние — насколько молекула похожа на обучающие
Конфигурацию функциональных групп — есть ли у модели опыт по этим группам.
Статистические методы — расстояние до ближайших точек, плотность распределения, ансамблевые оценки.

Чем дальше молекула от данных, на которых обучалась модель, тем менее надёжно предсказание.

Как Синтелли работает с доменом применимости?

Численное значение домена применимости можно найти рядом с каждым предсказанным свойством в карточке молекулы:

Проценты говорят о том, насколько можно доверять предсказанию.

Зелёное – полностью в домене применимости, предсказание хорошее и ему можно доверять.

Жёлтое – отчасти в домене применимости, предсказание может быть ненадежным, исследователю следует проявлять осторожность при принятии решений на основе этих данных

Красное – почти вне домена применимости, предсказание является ненадежным, риск большой ошибки значительно возрастает, хотя результат теоретически может оказаться верным.

Отсутствующее предсказание – полностью вне домена применимости, модели не стоит доверять (предсказание скрыто).

Домен применимости — это механизм, который защищает исследователя от неверных интерпретаций. Понимание границ модели и внимательное отношение к предупреждениям системы помогают получать более надёжные научные результаты.