Для подавляющего большинства нейросети до сих пор остаются забавной игрушкой, позволяющей создавать смешные картинки. Однако за последние несколько лет их возможности превзошли все мыслимые ожидания и затронули массу областей, как творческих, так и научных. Тематика настолько обширная, а грядущие возможности и проблемы, связанные с ней, настолько всеобъемлемы, что обо всем не рассказать в двух словах.
Для начала стоит объяснить, как вообще выглядят нейросети и как работают. Это не искусственный интеллект, как принято считать, а один из методов машинного обучения, в основе которого лежит математическая модель, имитирующая мозг.
Все возможные варианты событий и решений, которые должна принять нейросеть, уже прописаны в коде. Учитывая это, она умеет принимать решения на основе прошлого опыта и выдавать наиболее эффективный результат по своему собственному алгоритму. Говоря еще проще, нейросеть подглядывает у людей, а затем создает свою интерпретацию по заданным параметрам.
Со временем, конечно, выяснилось, что поток этих знаний стоит ограничивать, а то так недалеко и до «восстания машин». Широко известен случай, когда созданный в соцсетях бот на нейросетях меньше чем за день начал выдавать сообщения, полные враждебности, антисемитизма и оскорблений. Просто его так научили интернет-пользователи. Сегодня большинство таких инструментов не имеют онлайн-доступа к интернету, дабы не случилось чего.
Пожалуй, главный сервис, чье название на слуху у каждого, кто читает новости. Начиналось все действительно с шуточек – мобильных приложений, позволяющих переделать готовый портрет человека в иллюстрацию в стиле мультфильма или состарить его, а то и сменить пол. Постепенно эта возможность перекочевала в социальные сети в виде фильтров, которые работали даже в онлайн-режиме. Но прошло чуть больше года и мир увидел новую ступень развития нейросетей – создание изображения по текстовому запросу.
Пользователь вбивает в строку для ввода конкретные слова (фразы, теги): «Гарри Поттер, рабочий халат, усталый, советский завод, работает у станка», – и в итоге получает абсолютно реалистичного персонажа книг, который как будто сменил профессию и вкалывает на предприятии. Приведенный выше запрос упрощен – обычно туда входят еще более конкретные детали, вроде стиля, параметров и качества иллюстрации. Порой величина такого запроса может достигать половины страницы Word.
Первое время результаты таких картинок были очень несовершенны – у нейросетей были проблемы с количеством пальцев и другими мелочами, которые не сразу бросались в глаза. Некоторые запросы сервис в упор не понимал, например, никак не мог нарисовать Карлсона – необычного коротышку с пропеллером за спиной. Последняя версия MJ натаскана так идеально, что большинство людей просто не могут отличить ее работу от картины или даже фото реального человека.
Наглядным примером торжества нейросети над человеком стала победа американца Джейсона Аллена в конкурсе изобразительных искусств в США. Мужчина потратил несколько недель и около сотни попыток на создание качественного описания для картины под названием «Театр космической оперы». В итоге она выиграла в номинации «Цифровое искусство/фотография с цифровой обработкой». При этом эксперты изначально не знали, что это результат деятельности нейросети. Победа спровоцировала массу споров, но об этической и юридической проблематике подобных работ расскажем позже.
Одно дело – статичные изображения, другое – целое видео. В США в прошлом году представили нейросеть, генерирующую целые ролики по текстовым описаниям. У них было очень низкое качество, множество «артефактов» (странностей) и отсутствовал звук. Однако возможность поражала, как и опасность использования, так, что разработчики не опубликовали модель программы, опасаясь, что такая технология может быть использована во вред.
Впрочем, «лайтовая» версия такой функции уже есть сегодня в одном из отечественных приложений. Однако там ролики, по сути, строятся по принципу калейдоскопа из быстро сменяющихся изображений и очень далеки от совершенства, а потому – не считается. Как быстро Make-A-Video войдет в обиход – вопрос времени, но уже ясно, что это будет революция, которая создаст как минимум новый жанр в видео.
Говоря о «наших», нельзя не упомянуть последние достижения в области лингвистики. Сравнительно недавно Яндекс отчитался об итогах работы по обучению сервиса, переводящего видео онлайн, которая заняла около года. Теперь пользователь может зайти на YouTube, выбрать видео с иностранной речью и нажать перевод – на фоне говорящего начнет звучать русская речь, как в фильмах с простейшим переводом. Причем в диалогах будет несколько русских голосов. Пока что количество языков ограничено, как и длительность таких видео, но это дело времени.
А вот ElevenLabs сумел пойти намного дальше. Этот сервис может не только переводить говорящего в ролике человека, но и «двигать» его губы так, будто он действительно говорит на другом языке своим голосом. То есть в будущем профессия актера/режиссера дубляжа может просто не понадобиться – нейросеть заставит звезд зарубежного кино говорить по-русски без участия дубляжиста и кропотливой работы по укладке текста в губы персонажа. Пока что эта возможность ограничена длительностью видео и числом языков, но опять же – ждать осталось недолго.
Важность и масштаб создания этого сервиса трудно переоценить. Чат GPT наделал шуму не меньше, чем MidJourney, и этому есть объективные причины. Данная нейросеть умеет решать сложные задачи, в том числе химические или математические, анализировать и обрабатывать изображения, извлекая из них информацию, а затем выдавать текстовые ответы на естественном языке, в виде программного кода, формул и т. д.
Пользователь может спросить у нее, что смешного в конкретном меме, и модель объяснит суть шутки. Он может попросить нейросеть выступить в качестве редактора текста или разработчика мобильного приложения, и от роли будет зависеть стиль ответа GPT-4. По сути, это «живой» помощник в абсолютно любой сфере. GPT-4 уже помогала «чайникам» создавать программы с нуля или подготовить реферат. Один российский студент так даже написал диплом, просто вбив нужный запрос, и успешно сдал его.
Опять же, модель не совершенна. Поскольку она учится у людей, ее слово – не истина в последней инстанции и может основываться также на фейковой информации. Но уже сейчас она успешно ставит диагнозы пациентам (в том числе на основе медицинских снимков), сдает многие академические тесты и вообще работает на «уровне человека» в различных сферах. Недаром исследователи Microsoft заявили, что GPT-4 демонстрирует ранние признаки общего искусственного интеллекта.
С ней можно вести полноценный диалог, а поскольку GPT запоминает гораздо больше контекста (до 25 тысяч слов), это позволяет вести длинные беседы, ссылаясь на контекст. Уже сейчас среди пользователей пользуется успехом приложение, основанное на той же механике, – виртуальная девушка ведет с владельцем смартфона осмысленные разговоры, запоминая мелочи и учитывая их в будущем. С таким умным и учтивым собеседником некоторым уже и не нужен реальный партнер.
В этом году в соцсетях промелькнул интересный тренд на ИИ-каверы. Суть его такова – знаменитую песню «перепевал» другой исполнитель, в том числе на другом языке. Так, «Владимирский централ» смог спеть Фрэнк Синатра, а Элвис Пресли внезапно «исполнил» Bohemian Rhapsody. Необычный сервис создали энтузиасты из Китая – оно и понятно, юридически использование чьих бы то ни было голосов без разрешения незаконно и любой фирме пришлось бы сильно раскошелиться.
Опытные пользователи, умеющие не только работать с нейросетями, но и сводить аудио, за полчаса могут сделать такую запись. Существует несколько библиотек с модулями голосов популярных исполнителей, как зарубежных, так и российских, и даже мультяшных персонажей. Впрочем, поскольку авторские права никто не отменял, даже делиться такими песнями не очень безопасно – только на площадках, куда правообладатели не лезут. И хотя, с одной стороны, слушать подобные каверы весело, сама возможность в какой-то мере пугает – подумать только, люди уже не владеют собственными голосами.
В этой статье мы затронули только возможности нейросетей и прошлись по верхам – у каждого приведенного здесь сервиса есть уже десяток конкурентов. Однако там, где есть плюсы, имеются и минусы. Появление фейков, угроза существованию ряда профессий и гражданской свободе, юридические и этические проблемы – все это появилось вместе с развитием «нейронки». Обо всех реальных угрозах мы расскажем в следующей статье.