Microsoft и Tencent нашли способы сделать ИИ умнее без лишних затрат
Исследовательское подразделение Microsoft анонсировало новую технологию Team of Thoughts, которая повышает эффективность работы искусственного интеллекта за счет интеллектуальной координации вызовов специализированных моделей.
В основе подхода лежит центральный оркестратор, который управляет набором разнородных агентов и подключает их выборочно для решения отдельных этапов задачи.
Эффективность метода обеспечивают два ключевых механизма. Калибровка позволяет выбрать оптимальную модель для роли оркестратора, а механизм самооценки дает агентам возможность обозначить свои сильные стороны, помогая точно подбирать исполнителей под конкретные задачи. В результате оркестратор в реальном времени выбирает подходящего агента для каждого шага, что повышает общее качество решения.
Тестирование подтвердило высокую эффективность подхода. На бенчмарке AIME24 Team of Thoughts достигла 96,67 процента, а на LiveCodeBench — 72,53 процента, значительно превзойдя однородные базовые методы. Главное преимущество технологии — изменение логики использования вычислительных ресурсов на этапе инференса. Оркестратор активирует только тех агентов, которые действительно нужны в конкретный момент, и направляет мощности туда, где они дают максимальный эффект.
Компания Tencent разработала технологию CogRouter, которая позволяет AI-агентам адаптировать глубину рассуждений в зависимости от сложности задачи. Система переключается между четырьмя когнитивными режимами — от быстрых реакций до стратегического анализа — и задействует ресурсоемкие вычисления только тогда, когда это действительно оправдано.
Подход основан на двухэтапном обучении. На стадии COSFT модель осваивает различные уровни мышления и формирует устойчивые шаблоны рассуждений. На этапе COPO система поощряет глубокий анализ в тех шагах, где он повышает уверенность, позволяя в остальных случаях использовать более быстрые и дешевые режимы.
Тесты на платформах ALFWorld и ScienceWorld показали, что CogRouter повышает качество работы при одновременном снижении затрат. Модель Qwen2.5−7B достигла 82,3 процента успешных решений, превзойдя показатели GPT-4o и o3. При этом она использовала на 62 процента меньше токенов по сравнению с классическими методами обучения с подкреплением, сохранив более высокую точность.
Эксперты отмечают, что такой подход делает AI-агентов более практичными для реальных продуктов, где стоимость инференса напрямую влияет на масштабируемость и возможности внедрения.