Учёные Института искусственного интеллекта AIRI создали новый способ оценки того, насколько эффективно нейросети умеют анализировать контекст, сопоставлять события и делать логические выводы.
Проверка 12 продвинутых моделей, включая GPT-4o, Qwen2.5, Deepseek-R1, VideoLLaMA и LLaVA-Video, показала, что при работе с длинными цепочками информации их способность к рассуждению резко падает — вплоть до полного коллапса.
Как пояснил научный сотрудник AIRI Максим Куркин, речь идёт не просто об ухудшении качества, а о серьёзном сбое. На некоторых задачах даже ведущие модели начинали отвечать практически наугад. Причём это происходит у всех больших языковых моделей примерно одинаково: чем длиннее контекст, тем сильнее падает качество. Это говорит о том, что проблема носит системный характер.
Существующие тесты для ИИ чаще всего проверяют умение нейросети находить один факт в большом объёме данных или анализировать единичное событие. Но они не оценивают способность модели прослеживать длинные цепочки взаимосвязанных действий.
Чтобы закрыть этот пробел, российские исследователи придумали простую, но показательную задачу. В ней пять персонажей перемещаются между шестью комнатами, совершая от десятков до сотен переходов. Нейросеть должна запомнить все эти перемещения и правильно отвечать на вопросы о том, кто где оказался после одного или нескольких раундов.
Результаты оказались неутешительными. С ростом числа перемещений качество рассуждений у всех моделей резко снижалось. На самых сложных задачах даже лучшие из них давали неверные ответы.
Куркин отметил, что это исследование подтверждает выводы, сделанные специалистами AIRI ещё в 2024 году: даже самые продвинутые ИИ способны эффективно использовать лишь 10-20% контекста при анализе длинных текстов. Это значит, что для реального прогресса в этой области потребуются серьёзные изменения в архитектуре самих моделей, сообщает ТАСС.