Учёные разработали подход, позволяющий всесторонне оценивать качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.
Разработка будет представлена на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, которая проходит на этой неделе в Марокко, сообщили в пресс-службе MWS AI.
Сегодня многие корпорации используют большие языковые модели для создания ИИ-помощников, которые извлекают информацию из внутренних баз знаний и глобальной сети. Для корректной работы таких систем крайне важно минимизировать ошибки и предотвращать галлюцинации, сообщает ТАСС.
Традиционные тесты для оценки качества часто не отражают реальные условия работы: они либо не учитывают специфику конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей.
Российские исследователи предложили подход, который автоматизирует подготовку тестов и обеспечивает их актуальность. Система берёт свежие новостные ленты, строит из них «карту знаний», выделяя новые факты, которых ещё нет в архивах, и на их основе создаёт многоуровневые логические задачи. Это позволяет проверить, насколько ИИ-помощник умеет сопоставлять факты и решать сложные задачи.
На основе этого подхода учёные оценили несколько ИИ-ассистентов, созданных на базе популярных открытых языковых моделей, и сформировали первый публичный рейтинг таких систем.
Как отметил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, основным требованием корпораций сегодня является качество извлечения данных, их актуальность и контроль фактов. Предложенная методология легко адаптируется под любые языки и сценарии — от анализа научных публикаций до судебных документов. В перспективе разработка поможет компаниям быстро оценивать точность создаваемых ИИ-ассистентов и сравнивать их с уже существующими решениями.