В России создали инструменты для автоматического обучения искусственного интеллекта пониманию текстов
Российские учёные разработали библиотеку для автоматизации решения задач понимания естественного языка, которая позволяет быстрее создавать модели, определяющие смысл текста, относящие его к нужной категории или извлекающие из него важные сущности.
Как сообщили ТАСС в пресс-службе MWS AI (входит в МТС Web Services), разработка упростит создание чат-ботов и внедрение искусственного интеллекта в реальные отраслевые задачи.
Новый инструмент снимает с пользователя значительную часть сложной настройки машинного обучения. Вместо ручного выбора подходов к обучению и подбора параметров разработчик может передать системе набор данных и получить готовую модель через минимальный набор команд. Исследователь из Центра обработки естественного языка MWS AI Григорий Аршинов пояснил, что работа над библиотекой заняла около полутора лет. Она создавалась как прикладной инструмент, снижающий порог входа в разработку систем понимания естественного языка, чтобы пользователь мог получить рабочую модель, не погружаясь глубоко в устройство алгоритмов.
Учёные также встроили в систему инструменты, позволяющие выявлять запросы вне области обучения. Это означает, что система способна распознавать не только знакомые категории запросов, но и случаи, когда входящий текст не относится ни к одной из них. Для чат-ботов и голосовых интерфейсов это особенно важно, поскольку помогает избежать уверенных, но неверных ответов.
Созданная система поддерживает разработку решений для двух ключевых классов задач: классификации текстов и распознавания именованных сущностей. Библиотека сама выбирает режим обучения в зависимости от объёма и структуры данных, поэтому её можно применять как в условиях дефицита размеченных примеров, так и в более зрелых промышленных задачах.
Первые проверки показали, что подход способен достигать лучшего или сопоставимого с лидерами результата на большинстве тестовых наборов данных. В трёх из четырёх случаев библиотека вошла в число лучших решений по среднему качеству классификации и показала более сильные результаты в задаче выявления запросов вне области обучения. Учёные подытожили, что это делает разработку интересным инструментом для создателей систем искусственного интеллекта для понимания текстов.