Общество

В России создали первое отечественное ПО для генерации музыки и песен с помощью ИИ

Фото: magnific.com

Специалисты Новосибирского государственного технического университета разработали первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей.

Об этом ТАСС сообщил руководитель проекта Егор Антонянц.

Разработка предназначена для задач, требующих автономной генерации музыкальных композиций, вокальных партий и звуковых эффектов по текстовому описанию без привязки к облачным сервисам. Система обеспечивает полный цикл создания аудиопродукции — от текстового запроса до экспорта в форматы WAV, MP3 и FLAC — и при этом работает на обычном потребительском оборудовании с объёмом видеопамяти менее 6 ГБ.

Ключевая особенность решения — полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Как отметил Антонянц, разработчики дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты. Это позволяет избежать смешения характеристик и добиться более точного соответствия запросу.

В отличие от базовых решений, ориентированных на англоязычных пользователей, новый инструмент адаптирован для работы с русскоязычными запросами и показывает конкурентоспособные результаты. Средняя субъективная оценка MOS составила 4,1 из 5 баллов, что сопоставимо с показателями ведущих коммерческих платформ.

Разработчик проекта Артур Хусаинов пояснил, что технически обработка строится в несколько этапов. Языковая модель формирует семантический «каркас» композиции с использованием «цепочки рассуждений». Диффузионный трансформер выполняет акустический синтез в латентном пространстве. Модуль экспорта обеспечивает конвертацию в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять и загружать пресеты параметров генерации, предпрослушивать результаты и экспортировать треки без привлечения сторонних редакторов.

Создатели ПО планируют расширять систему. В перспективе — добавление поддержки пространственного аудио для задач виртуальной реальности, интеграция с MIDI-контроллерами для живого взаимодействия и адаптация ПО для промышленных сценариев: от создания звуковых ландшафтов для видеоигр до автоматизированного озвучивания фильмов, прямых трансляций, подкастов и рекламных роликов.