Кубанские Новости

Российские исследователи создали универсальный инструмент для проверки русскоязычных ИИ-ассистентов

Российские исследователи создали универсальный инструмент для проверки русскоязычных ИИ-ассистентов
Фото: freepik.com

Учёные разработали подход, позволяющий всесторонне оценивать качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.

Разработка будет представлена на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, которая проходит на этой неделе в Марокко, сообщили в пресс-службе MWS AI.

Сегодня многие корпорации используют большие языковые модели для создания ИИ-помощников, которые извлекают информацию из внутренних баз знаний и глобальной сети. Для корректной работы таких систем крайне важно минимизировать ошибки и предотвращать галлюцинации, сообщает ТАСС.

Традиционные тесты для оценки качества часто не отражают реальные условия работы: они либо не учитывают специфику конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей.

Российские исследователи предложили подход, который автоматизирует подготовку тестов и обеспечивает их актуальность. Система берёт свежие новостные ленты, строит из них «карту знаний», выделяя новые факты, которых ещё нет в архивах, и на их основе создаёт многоуровневые логические задачи. Это позволяет проверить, насколько ИИ-помощник умеет сопоставлять факты и решать сложные задачи.

На основе этого подхода учёные оценили несколько ИИ-ассистентов, созданных на базе популярных открытых языковых моделей, и сформировали первый публичный рейтинг таких систем.

Как отметил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, основным требованием корпораций сегодня является качество извлечения данных, их актуальность и контроль фактов. Предложенная методология легко адаптируется под любые языки и сценарии — от анализа научных публикаций до судебных документов. В перспективе разработка поможет компаниям быстро оценивать точность создаваемых ИИ-ассистентов и сравнивать их с уже существующими решениями.

Сейчас читают

Мы используем cookies для улучшения работы нашего сайта и большего удобства его использования. Продолжая использовать сайт, Вы выражаете своё согласие на обработку файлов cookies