Общество

От «серой зоны» к реестру: как новые правила могут изменить рынок данных для нейросетей в России

Фото: Кубанские новости/сгенерировано нейросетью Яндекс

В России обсуждают введение новых правил для разработчиков искусственного интеллекта, которые обяжут компании раскрывать сведения о массивах данных, используемых для обучения нейросетей.

В Российской Федерации обсуждают введение новых правил для разработчиков искусственного интеллекта, которые обяжут компании раскрывать сведения о массивах данных, используемых для обучения нейросетей. Об этом сообщают «Ведомости» со ссылкой на участников рынка и представителей Министерства цифрового развития, связи и массовых коммуникаций РФ.

Что предлагается регулировать

Согласно проекту инициативы, разработчики программного обеспечения на основе ИИ должны будут указывать в отчётной документации:

  1. название наборов данных, использованных для обучения моделей;

  2. формат и объём информации;

  3. происхождение данных (источники сбора, наличие лицензий, права на использование).

Такая мера, по замыслу авторов предложения, призвана повысить прозрачность и доверие к технологиям искусственного интеллекта, а также предотвратить незаконное использование контента, защищённого авторским правом.

Реестр отечественных ИИ-решений

Для систематизации сведений власти рассматривают возможность создания специального реестра отечественных решений в сфере искусственного интеллекта. Регистрация в таком реестре могла бы стать условием для легального использования моделей в коммерческих и государственных проектах.

Важным аспектом инициативы является потенциальная возможность для авторов оригинальных текстов, изображений, аудио- и видеоматериалов претендовать на вознаграждение за использование их произведений при обучении цифровых моделей. Это могло бы создать новый механизм монетизации интеллектуальной собственности в эпоху генеративного ИИ.

«Серая зона» обучения алгоритмов

Специалисты отмечают, что в настоящее время обучение алгоритмов искусственного интеллекта во многом происходит в «серой зоне»: компании свободно используют практически любые материалы, доступные в открытом доступе в сети, зачастую без получения соответствующих лицензий или согласия правообладателей.