Российские исследователи нашли способ сжимать языковые модели на треть без потери качества
Ученые из Института искусственного интеллекта и цифровых наук (Москва) разработали новый метод сжатия больших языковых моделей, который позволяет уменьшить их объем на 25–36 процентов без дополнительного обучения и значительной потери точности.
Результаты исследования опубликованы в авторитетном сборнике Findings of the Association for Computational Linguistics, сообщает ТАСС.
Как отмечается в работе, большие языковые модели вроде ChatGPT и LLaMA демонстрируют впечатляющие результаты в генерации текста, переводе и других задачах, однако их огромный размер делает их крайне дорогими в использовании. Многие из них невозможно или очень сложно запустить на одном графическом процессоре, поскольку они содержат десятки и сотни миллиардов параметров, требующих сотен гигабайт памяти. Существующие методы сжатия предполагают постепенное удаление части параметров с постоянным отслеживанием качества работы, что занимает много времени.
Российские математики нашли способ существенно ускорить этот процесс. Предложенный ими подход, названный «методом Прокруста» в честь героя древнегреческих мифов, «подгоняющего» размеры путников под свое ложе, изменяет так называемые веса нейросети — параметры, отражающие связи между нейронами. Благодаря этой «подгонке» веса начинают лучше поддаваться сжатию с помощью структурированных матриц, которые занимают гораздо меньше памяти. Процедура работает быстро и может применяться к уже существующим системам искусственного интеллекта, включая популярные языковые модели.
Первые испытания на открытых моделях OPT и LLaMA2 показали, что новый метод не только работает быстрее аналогов, но и превосходит их по точности на 9–10 процентов, сохраняя качество работы уменьшенной модели. По мнению авторов разработки, это открытие поможет внедрять большие языковые модели в устройства с ограниченными вычислительными ресурсами и сделает искусственный интеллект доступнее в повседневной жизни.