ПО использует машинное обучение для оказания помощи пользователям в решении задач в области органической и медицинской химии.
Функциональное назначение программы
Поддержка пользователя в процессах:
— обработки и анализа химической информации с помощью моделей машинного обучения
— экспериментального моделирования химических соединений с заданными свойствами
Представление информации о существующих химических соединениях, научной литературе и химических реакций для целей поиска.
Программный комплекс Синтелли предназначен для использования в научно-исследовательских центрах, высших учебных заведениях, на предприятиях химической, косметической и фармакологической промышленности для поиска известной химической информации и моделирования новых эффективных молекул-кандидатов в новые вещества и материалы (в том числе при разработке новых лекарственных препаратов).
Также платформа может быть использована в организациях, занимающихся защитой интеллектуальной собственности, патентным поиском, в государственных, коммерческих и образовательных организациях.
Эксплуатационное назначение программы
9
Модуль визуализации химического пространства «SynMap»
01
Визуальный модуль анализа химического пространства (2D/3D), основанный на предобученной нейросетевой модели позволяет получить быстрое и наглядное представление об основных группах химических соединений которые есть в датасете. Модель производит проецирование структур химических соединений в координаты X и Y на двумерной плоскости. С помощью данного инструмента можно сравнивать и анализировать датасеты молекулы, накладывая их на карту различными слоями.
02
Генератор новых структур с заданными параметрами (QED, CATS, температура кипения, температура плавления, мышь орально LD50, LogP, LogS, растворимость в ДМСО, Complexity, Syba, Brutto).
8
Модуль «Датасеты»
01
Поддержка пакетного режима обработки данных, функционал работы с дата-сетами молекул и химических реакций. Импорт в форматах: SDF, CSV, SMI. Экспорт в форматах: SDF, CSV, XLSX.
02
Поддержка трех различных видов датасетов:
Тематические датасеты — сгруппированные наборы структур по известным биологическим мишеням.
Датасеты компании — датасеты для совместной работы над выборками данных между сотрудниками одной организации с фиксацией действий всех пользователей и ролевой политикой
Личные датасеты — датасеты для личного пользования с возможностью добавления личных экспериментальных данных к молекулам
03
Возможность табличного анализа структур по всем свойствам, с фильтрацией и окрашиванием по необходимым условиям и последующим экспортом отфильтрованного массива.
7
Модуль «Молекулярный редактор»
Ввод и редактирование молекулярных структур с использованием графического интерфейса;
Расчет всех прогнозируемых свойств по структурам, которых нет в Б Д Синтелли (новые пользовательские структуры)
6
Модуль поиска по реакциям
01
Поиск химических реакций по структурам реагентов или продуктов с использованием ввода молекулы при помощи молекулярного редактора или идентификаторов (SMILES, IUPAC, CAS-номер, InChl и т.д.)
02
Настройка поиска по роли вещества в реакции и проценту выхода.
03
Предоставление информации о каждой реакции из литературы, включая условия проведения (температура, давление, катализатор и т. д.), используемые агенты и растворители, а также доступ к соответствующей научной литературе и протоколам для воспроизведения эксперимента)
04
Функционал сохранения истории поиска (поисковые запросы) с фиксацией типа ввода (структурная формула, SMILES или др)
5
Модуль поиска по литературным источникам
01
База данных литературных источников, включающая публикации, патенты и заявки на патенты:
145 млн публикаций
16 млн патентов
тип документа (статья/патент)
язык публикации (русский/английский)
дата публикации
условия (заголовок, аннотация, автор, DOI, номер патента, журнал, издатель, владелец, заявитель, полный текст, формула
02
Функционал полнотекстового поиска по патентной документации
03
Возможность просмотра источника, где описано искомое соединение (связь структурная формула-литература)
04
Конструктор сложных комбинированных запросов (например, структура + ключевое слово) по различными условиям и связям с помощью логических операторов: И/ИЛИ/НЕ.
05
Доступны следующие фильтры и условия:
06
Функционал сохранения истории поиска (поисковые запросы) с фиксацией типа ввода (структурная формула, SMILES или др)
4
Модуль «Поиск по структурам»
01
В основе модуля лежит база данных свойств для уже изученных соединений. Модуль обеспечивает быстрый доступ к данным о соединениях:
Структуры органических соединений (более 160 млн записей)
Экспериментальные данные (более 2.4 млн записей).
02
Доступны следующие фильтры:
Точное совпадение
Подструктурный поиск
Похожие структуры
Структуры маркуша
03
Осуществление поиска с помощью молекулярного редактора или поисковой строки в любом удобном формате: ключевые слова, синонимы, название по IUPAC, CAS-номер, SMILES, InChI и др.
04
Функционал сохранения истории поиска (поисковые запросы) с фиксацией типа ввода (структурная формула, SMILES или др)
3
Карточка реакции
Содержит следующую информацию:
Схема реакции
Выход
Ресурсы
Условия реакции (температура, давление, катализатор, агент, растворитель, pH, оборудование, атмосфера, излучение, время)
2
Карточка литературы
Включает следующую информацию:
Заголовок публикации или патента
Аннотация
Структуры из статьи
Источник
Дата публикации
Номер патента или DOI статьи
Также некоторые патенты представлены в полнотекстовом формате.
1
Карточка структуры
01
В карточке каждой структуры доступна следующая информация:
Блок структурных данных – всевозможные идентификаторы структуры (CAS-номер, название по IUPAC, SMILES, InChi, InChi ключ, брутто-формула, молекулярный вес)
Известные синонимы, под которыми структура может быть записана в других базах данных
Ссылки на внешние базы данных
10 физико-химических свойств
5 экологических свойств
40 показателей токсичности
18 биологических свойств (включая 5 цитохромов)
2 различных способа оценки синтетической сложности
параметры сходства с лекарственными препаратами (правила пяти Липински, факторы Гозе, правила Опреа, правило Вебера, PAINS)
02
В карточке каждой структуры доступна следующая информация:
Всего в карточке структуры представлено более 80 свойств. Если в базе данных есть экспериментальные значения по запрашиваемой молекуле, система выводит именно их, при этом рядом с параметрами отображается зеленый индикатор
03
Если экспериментальных данных по молекуле нет, то выводятся прогнозные значения рассчитываемые прогностическими моделей на основе глубоких нейронных сетей:
04
Показатель применимости моделей: каждая конкретная структура соотносится с обучающей выборкой и справа от значения приводится оценка применимости модели к выбранной структуре в процентах.
05
Всю представленную информацию можно скачать в формате отчета pdf.
№
Компонент продукта
Функциональные характеристики
Функциональные характеристики компонентов программного обеспечения
13
Модуль «Датасеты»
01
Инструмент оптического распознавания и извлечения структурных формул из документов в формате pdf: патентов, научных статей, протоколов испытаний, диссертаций и т.п.
02
Модуль обеспечивает оптическое распознавание структур химических соединений и структур Маркуша, а также:
функционал загрузки документов размером до 100 Мб
оценку надежности распознавания каждой отдельной структуры
возможность редактирования распознанной структуры
хранение распознанных документов пользователя (работа с коллекциями документов)
возможность скачивания результатов распознавания в форматах: png, csv
возможность сохранения распознанных структур в отдельный датасет
14
Модуль «SMILES в IUPAC»
Генерация систематических номенклатурных названий согласно правилам IUPAC на русском и английском языках
15
Модуль «Статистика»
Модуль предоставляет пользователям данные о статистических параметрах (метриках) моделей машинного обучения, представленных в карточке структуры (RMSE, ROC AUC)
16
Модуль «Сравнение структур»
Модуль предоставляет пользователям данные о статистических параметрах (метриках) моделей машинного обучения, представленных в карточке структуры (RMSE, ROC AUC)
Возможность выбора конкретных характеристик для сравнения из списка свойств
12
Модуль «Стоимость синтеза»
01
Аналитический инструмент, разработанный для оценки стоимости синтеза химических соединений. Необходимо ввести параметры желаемого синтеза: продукт, реагент, желаемый вес синтезируемого вещества и количество стадий реакции. Результатом является ТОП-5 схем реакций, упорядоченных по возрастанию стоимости. Это позволяет провести анализ по известным методикам и выбрать наиболее оптимальный путь синтеза с расчетом экономической эффективности.
02
Модуль предоставляет возможности для детального анализа каждой схемы, редактирования таблицы стоимости и экспорта данных в форматах: Excel, PDF, CSV
11
Модуль «Спектры»
Модуль позволяет прогнозировать спектральные данные:
01
ЯМР (ядерный магнитный резонанс) малых органических молекул (1H, 13C, 15N и 19F). Результат представлен в виде набора "химический сдвиг - относительная интенсивность". Для спектров 1H также прогнозируется мультиплетность.
02
Масс-спектрометрия с настройками следующих параметров: спектральный тип, ионный режим, тип аддукта, округление RI и m/z
03
Инфракрасная спектрометрия с различными методами съемки (gas, liquid, CCI4, KBr)
04
Всю представленную информацию можно скачать в формате pdf.
10
Модуль «Прогнозирование реакций»
01
Планирование синтеза органических соединений с помощью нейросетевой модели. Включает в себя 2 опции:
Синтез – прогнозирование потенциальных продуктов реакции, на основе реагентов вступающих в нее (одностадийный органический синтез)