Помимо ChatGPT-4o в эксперименте принимали участие такие чат-боты, как Qwen 2-72B, InternLM 2.0, LLM и другие популярные модели. Они были протестированы с помощью системы оценки OpenCompass Шанхайской лаборатории искусственного интеллекта. Для того, чтобы результаты ИИ оценивались объективно, все ответы проверялись вручную. А экзаменаторам не стали сообщать о том, что тесты проходили модели искусственного интеллекта.
Задания в них были абсолютно идентичны тем, что обычно решают китайские школьники на Гаокао. В тестах присутствовали как точные задачи, так и открытые вопросы, в которых нужно было объяснить свой ответ.
ИИ вполне неплохо справились с экзаменами по китайскому и английскому языку, однако экзамен по математике вызвал значительные трудности. Все чат-боты провалили текст, а максимальный балл составил всего 75 из 150 (InternLM 2.0). Второе место занял ChatGPT-4o, который смог набрать 73 балла.
Самым умным ИИ оказался Qwen 2-72B от Alibaba. По результатам всех экзаменов он смог набрать 303 балла из 420. После него расположился Chat GPT-4o с 296 баллами, а тройку лидеров замыкает InternLM 2.0 Шанхайской лаборатории искусственного интеллекта с 295,5 балла.
Китайский аналог ЕГЭ негласно считается «трехдневным адом». Основные шесть предметов (китайский, английский, математика и комплексы гуманитарных предметов) обычно сразу проводятся 7 и 8 июня, однако в некоторых провинциях школьникам дают третий день. До экзаменов школьники учатся с шести утра до десяти вечера. А после им еще нужно успеть сделать домашнюю работу, так что многие могут месяцами спать лишь по четыре часа в сутки.