Общество

Российские учёные нашли способ сделать искусственный интеллект менее склонным к соглашательству

Фото: freepik.com

Исследователи из России разработали подход, позволяющий объективно оценивать, насколько большие языковые модели склонны соглашаться с запросами пользователя, даже если те содержат ошибки.

Как сообщила пресс-служба «Т-Технологий», это поможет улучшить работу искусственного интеллекта при решении логических задач и задач на рассуждение.

Руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев пояснил, что результаты исследования важны для всей индустрии, поскольку затрагивают вопрос надёжности больших языковых моделей. Они всё чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Разработанный подход предлагает практический способ снижать этот эффект.

Большие языковые модели всё чаще применяют в сценариях, где необходима логическая корректность ответов: при решении математических задач, проверке программного кода и анализе данных. В таких ситуациях важно, чтобы система была уверена в своих ответах, видела логические противоречия и не соглашалась с изначально неверной позицией пользователя.

Учёные создали два теста. Первый оценивает, как меняется проверка готового решения в зависимости от нейтрального или негативного контекста, заданного пользователем. Второй определяет, насколько хорошо системы способны выявлять логические нестыковки в условиях задач с противоречиями. В таких случаях нейросеть должна найти и указать на проблему с логикой, а не давать решение для некорректной задачи, сообщает ТАСС.

Оба подхода использовали для оценки склонности к соглашательству у большого числа открытых и закрытых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini. Тесты показали, что изученные системы были склонны к соглашательству в 23–50 процентах случаев. Дополнительное обучение на предпочтениях пользователей во многих ситуациях не улучшало качество работы, а, наоборот, заставляло модель чаще соглашаться с неверной оценкой или ошибочной постановкой задачи. При этом тесты указали на возможный путь исправления проблемы — с помощью особых модификаций в структуре моделей, что в перспективе позволит повысить их надёжность.