Сравнение нейросетей для генерации видео, или «Салат из пальцев»
Несмотря ни на что, нейросетевой ажиотаж и не думает униматься — слишком много денег инвестировано в сегмент, поэтому так просто никто сдаваться не намерен. Однако если текстовые и графические нейросети давно и вполне успешно заняли свое место среди рабочих и развлекательных инструментов множества людей, то нейросети, генерирующие видео, долгое время стояли особняком. К тому же развивать их активно начали сравнительно недавно — осенью 2022 года. Многие месяцы видеомодели не могли похвастать сколько-нибудь приемлемым качеством контента. Основные проблемы были связаны с тем, что получаемый на выходе нейросети видеоряд выглядел нереалистично даже в сравнении с обычными анимационными фильмами. Нейросети не справлялись (во многих случаях не справляются до сих пор) с физикой процессов, правильной прорисовкой объектов и текстур, моделированием освещения и многим другим. Первые созданные подобным образом видео вызывали у людей в лучшем случае смех, но чаще — физическое отторжение, так как элементы на них выглядели и действовали противоестественно. Наиболее показательным примером является видеоролик, сгенерированный с помощью Stable Diffusion в апреле 2023 года, где человек, похожий на американского актера Уилла Смита, уплетает спагетти. При этом самые известные артефакты, указывающие на плохую работу видеомоделей, в свое время даже стали мемом, известным почти всем, кто сталкивался с генеративным ИИ. Речь, конечно же, про лишние части тела, будь то шестой палец на руке или даже целая лишняя рука/нога. Вообще в последнее время дела с конечностями у нейросетей явно улучшились, однако говорить об идеальном соответствии реальности еще очень рано. Чтобы заметить необычное восприятие конечностей нейросетями, теперь нужно вглядываться в изображение на экране более внимательно.
Абсолютное большинство современных нейросетей продолжает грешить разнообразными ненужными спецэффектами, которые подчеркивают искусственность создаваемого контента. Чаще всего это неестественные движения людей и странные преобразования объектов. Люди на видео могут двигаться нелепо, пошатываясь и подергиваясь, подчас как бы перетекая из одной версии себя в другую. При этом их лица также могут меняться чрезвычайно быстро, в течение нескольких секунд. Внезапно измениться может любая деталь в кадре: цвет глаз, форма носа, длина волос. Также беспричинно может меняться, например, одежда персонажей видео. Более того, одежда (и не только она) может приобрести неожиданные свойства, например, текучесть. Да и некоторые объекты могут выглядеть неприлично размытыми, будто зритель не может сфокусировать свой взгляд на них. Впрочем, они могут и просто исчезнуть из кадра (особенно на заднем фоне), раствориться в сюрреалистичном нейросетевом мире. Иногда подобные артефакты называют морфингом. Перечислять разнообразие особенностей нейросетевых видео можно бесконечно долго. Раньше кто-то из режиссеров, наоборот, пытался добиться некоторых из описанных эффектов, чтобы передать определенное настроение или смысл, однако в строго дозированном объеме и там, где это уместно по сюжету. В случае с роликами, сделанными нейросетями, видео может полностью состоять из таких фантасмагорических построений. Помимо прочего, довольно сложными проблемами для нейросетевых видеомоделей остается все, что связано с освещением и отражениями. Например, отражения в зеркалах и стеклах на видео могут исчезать, инвертироваться и искажаться.
Что касается физики процессов, то наиболее яркий пример — это «салат из пальцев». Когда пользователь просит изобразить, как повар нарезает какие-либо продукты, скажем, помидоры и огурцы для салата, многие нейросети допускают серьезные ошибки при генерации подобных видео. Степень этих ошибок варьируется довольно широко — от серьезных до незначительных — однако подобный запрос, в котором модель должна хорошо «понимать» физику процесса и запоминать последовательность действий-кадров, дается ей с трудом. В наиболее запущенном случае нарезанными оказываются не только овощи, но и пальцы повара. Создается впечатление, что нейросеть не видит разницы между телом человека, выступающего в роли повара, и обычными продуктами. Отсюда шутка про «салат из пальцев».
И пожалуй, самая важная особенность работы нейросетей, генерирующих видео, — их плохая «память». Разработчики постоянно пытаются исправить эту проблему, однако выходит не очень. Видеомодель словно забывает то, что было в предыдущих, ею же нарисованных кадрах.
Существенный скачок вперед в плане качества генерируемых нейросетями видеороликов произошел в марте 2024 года, когда компания OpenAI, известная разработкой ChatGPT, представила первую версию видеомодели Sora. Эта нейросеть была на голову выше предшественников, но не стала доступной для широкой общественности. Только в конце декабря была представлена вторая версия нейросети под новым расширенным названием Sora Turbo, ставшая публичной. А в середине того же месяца прошлого года Google представила Veo 2, которая также является второй версией соответствующей модели (первая опять же тестировалась закрыто). Многие участники рынка считают Veo 2 наиболее качественной публичной видеонейросетью на сегодня. Так это или нет — судить сложно, ведь полноценный доступ к Veo 2 есть у очень ограниченного круга лиц. Далее мы рассмотрим некоторые наиболее известные на сегодня нейросети и их особенности, а начнем именно с сервиса от Google.
Veo 2 (Google, США)
17 декабря Google представила ИИ-модель для создания видео по текстовым описаниям — Veo 2.0. В этой версии сервиса поддерживается разрешение 4K, улучшено управление камерой, но самое главное — значительно повышено качество, детализация и реалистичность получаемых видео. Также разработчики уменьшили количество искажений в итоговом материале, в том числе так называемых нейросетевых галлюцинаций. Утверждается, что отныне нейросеть может работать с гораздо более детализированными текстурами. Благодаря улучшенному пониманию физики реального мира и способности следовать сложным и подробным инструкциям, модель научилась более естественно отображать движения людей и объектов в кадре.
Маркетологи Google сравнили ролики, сгенерированные Veo 2.0, с другими популярными нейросетевыми сервисами генерации видео, в частности, с MovieGen, Kling v.1.5, Minimax и Sora Turbo, и опубликовали полученный результат. В рамках теста была проведена оценка более тысячи разных видео, созданных с помощью запросов из базы Movie Gen Bench. В зависимости от модели длина роликов варьировалась от 5 до 10 секунд. В случае с Veo она составляла 8 секунд. Разрешение видео во всех роликах равно 720p. Ожидаемо в проведенных тестах победила модель от Google — как относиться к этому, оставим на усмотрение читателя.
В Сети уже появились интересные примеры использования новой нейросети. В частности, основатель International Blockchain Consulting Марио Науфаль (Mario Nawfal) опубликовал в своем аккаунте соцсети X почти двухминутный короткометражный фильм «Ограбление» («The Heist»). Как утверждается, все кадры этого произведения созданы с помощью подробных текстовых описаний в Veo 2.0, однако непосредственно за монтаж и звуковую дорожку отвечал человек — американский кинорежиссер Джейсон Зада (Jason Zada), также известный как создатель интерактивного короткометражного фильма «Take This Lollipop» (2 минуты 38 секунд). Несмотря на то что «The Heist» выглядит весьма неплохо, догадаться, что видео сгенерировано нейросетью все еще несложно — в основном из-за проблем с ее «памятью». В определенной степени здесь можно обнаружить большую часть описанных выше артефактов, свойственных искусственно созданным видеороликам. Так, главный герой короткометражки всего лишь за две минуты экранного времени переоделся с десяток раз, его машина меняла конструкцию с праворульной на леворульную (и наоборот), а светофоры одновременно разрешали и запрещали проезд (горели и красным, и зеленым). Морфинг текстур также присутствует. Основная проблема видео, как и раньше, в том, что достоверная память модели ограничена максимальной длиной ролика, которую она способна выдать: в конкретном случае, по-видимому, восемью секундами.
В том, что касается физики процессов реального мира, у новой модели от Google все довольно неплохо. Например, благодаря эксперименту пользователя соцсети X Блейна Брауна (Blaine Brown) каждый может ознакомиться с результатами работы восьми ИИ-видеомоделей, которым было предложено сгенерировать видео нарезания идеального приготовленного стейка на деревянной разделочной доске. Еще пару лет назад все модели выдали бы условный «салат из пальцев», однако сегодня таких «салатов» значительно меньше, да и в целом результаты не столь плачевны. На этом фоне объективно выделяется видео, сгенерированное Veo 2.0: оно максимально похоже на то, как это могло бы выглядеть в реальности.
Если говорить о коротких видео (без монтажа и склейки), то уровень обработки промтов у новой модели действительно высокий. Она с удивительной точностью генерирует видео в соответствии с запросами, состоящими из пяти-десяти сложных предложений, пытаясь учесть все описанные в них нюансы. При этом если оценивать короткие видео — именно те, что она генерирует по умолчанию, то они действительно выглядят очень кинематографично и почти без артефактов.
Пока получить доступ к возможностям Vep 2.0 можно только через сайт Google Labs VideoFX, отправив запрос нажатием кнопки Sign up to try on VideoFX. Учтите, что ранний доступ поддерживается не во всех странах (Россия, как и многие другие страны, в этот список не входит). Если у пользователя есть возможность подать заявку на ранний доступ (например, в США), то после авторизации в Google будет активна кнопка Join the waitlist. Со временем доступ к Veo 2.0 появится не только в VideoFX, но и в YouTube, Vertex AI. Каким еще параметрам, кроме определенной страны проживания, должен соответствовать пользователь, чтобы его заявку одобрили, неизвестно.
Если по счастливой неожиданности ваш аккаунт уже попал в списки тех, кому дали доступ к Veo 2.0, то после входа в Google Labs и выбора VideoFX вы найдете окно для ввода описания желаемого видео. После нажатия кнопки Create videos система создаст сразу четыре варианта видео, соответствующих промту. Далее по желанию пользователь может продолжить генерировать дополнительные варианты, менять описание и скачивать полученные ролики.
Kling v1.6 (Kuaishou)
Китайская нейросеть, работающая как со статическими изображениями, так и с видео. Используя ее, можно анимировать изображения, создать видео из картинки и подсказки, а также видео с помощью первого и последнего кадра (нейросеть заполняет пространство между ними на свое усмотрение), осуществить синхронизацию движений рта с речью (Lip Sync) и т. п. Исходные данные вводятся посредством текстового описания или изображения.
Для того чтобы воспользоваться этой нейросетью при создании видео, необходимо зарегистрироваться, перейти в раздел AI Videos и определиться с режимом генерации: текстовое описание (Text to Video), графическое изображение (Image to Video) или их сочетание (в рамках Image to Video). Помимо основного текстового промта, в настройках нужно выбрать длину видео (5 или 10 секунд), соотношение сторон (16:9, 9:16, 1:1), а также степень соответствия текстовому описанию. Последний пункт выполняется с помощью ползунка, который балансирует между креативностью и релевантностью. Есть пункт Negative Prompt, где можно описать виды контента, которые вы не желаете видеть в итоговом видео, например, анимацию. В разделе Image to Video два подраздела: Frames и Elements. В режиме Elements можно загрузить до четырех изображений (людей, животных, объектов, сцен) в формате JPG/PNG объемом не более 10 Мбайт каждое, описав их взаимодействие друг с другом в промте. В режиме Frames необходимо выбрать первый и последний кадр видео. Также вскоре можно будет работать с инструментами Motion Brush (контроль передвижений объектов) и Camera Movement (управление движением камеры). Однако на данный момент эти функции не реализованы в последней версии нейромодели v.1.6: чтобы оценить их в работе, необходимо переключиться на версию v.1.5. Особняком стоит подраздел и инструмент Lip Sync, с помощью которого можно озвучить видео, соотнеся текст с движением губ. В процессе можно определиться с текстом, выбрать тип голоса, которым будет озвучено видео и многое другое. После того как все параметры заданы, нажимаем Generate и ждем. Генерация одного видео в формате MP4 длиной 5 секунд с озвучкой заданного текста обошлась мне в 5 кредитов (внутренняя валюта) и заняла 10 минут. Готовое видео можно скачать, однако в бесплатной версии оно будет снабжено логотипом нейросети KLING AI 1.6 PRO в правом нижнем углу.
В бесплатной, пробной версии ИИ-видеомодели по умолчанию доступно 366 кредитов ежемесячно. Создание одного ролика в обычном режиме оценивается в 20 кредитов, в профессиональном — в 35 кредитов. Минимальный платный тариф по подписке — $10 в месяц (660 кредитов). Часто бывают скидки, в результате чего реальная стоимость месячной подписки варьируется в пределах $4–9. Также можно разово приобрести от 330 кредитов за $5. Сервис доступен из России без каких-либо проблем, но чтобы его оплатить, требуется международная банковская карта.
Hailuo AI (Minimax)
Hailuo AI — еще одна известная нейросеть из Поднебесной, созданная при участии китайских корпораций Alibaba и Tencent. Она генерирует видеоролики длиной до 6 секунд. По умолчанию видео генерируются в разрешении 1280×720 пикселей с частотой 25 кадров/с. Формат конечного файла — MP4 (кодек H264). Возможности сервиса похожи на те, что есть у конкурентов, но имеются и отличия. Например, в Hailuo AI нет отдельного инструмента, аналогичного Lip Sync, как у нейросети Kling.
Для создания видео достаточно зарегистрироваться и нажать Video/Create или Try now. После чего откроется форма для ввода промта и выбора из трех вариантов: Image to Video (30 кредитов), Text to Video (30 кредитов), Subject Reference (45 кредитов). Также пользователю нужно определиться с числом вариантов (от 1 до 3), которые предложит нейросеть по одному и тому же запросу. Создание ролика длиной в 6 секунд по фото и текстовому описанию заняло примерно 90 секунд. Создание видео в режиме Subject Reference (модель S2V-01) заняло уже 200 секунд. Последующие генерации занимали по несколько часов. Время, уходящее на создание ролика, напрямую зависит от загруженности сервиса в конкретный момент времени и может составлять от нескольких минут до нескольких часов. В режиме Subject Reference предлагается загрузить чье-либо фото (например, свое), описать в промте интересуемую сцену и на выходе получить видеоролик в нужном антураже с собой в главной роли. Инструмент выдает вполне приличные и интересные результаты. Во всех режимах по умолчанию активирована функция улучшения промта, но при желании ее можно отключить, деактивировав символ карандаша в правом нижнем углу окна с текстовым описанием запроса.
Существует бесплатная версия сервиса, ограниченная только количеством кредитов, которые система выдает за ежедневную авторизацию в сервисе (100 кредитов в сутки). При первичной регистрации мне дали 1100 кредитов с ограниченным сроком годности в три дня. В бесплатном режиме можно отправлять в очередь до трех заданий. Очевидно, все видео, созданные в бесплатной версии, будут снабжены водяным знаком в правом нижнем углу видео.
Платные тарифы стартуют от $10 в месяц за 1000 кредитов. При этом бонусные кредиты за авторизацию также останутся, а количество задач в очереди увеличится до пяти. Более того, две из них смогут обрабатываться сервисом одновременно. Можно генерировать видео без водяных знаков.
Runway
С помощью американского проекта Runway также можно создавать видео из изображений и текстовых описаний, анимировать исходные картинки или накладывать видеоэффекты на существующие видео.
Чтобы создать видео с помощью Runway, необходимо зарегистрироваться на их сайте и перейти в раздел Tools/Generate Video. Перед пользователем откроется рабочая область, где можно загрузить исходное изображение или видео, а также написать промпт. Здесь можно выбрать модель, с помощью которой будет создаваться видео: Gen-3 Alpha Turbo (5 или 10 секунд), Gen-3 Alpha и Gen-2 (4 секунды). Модель Gen-3 Alpha недоступна в бесплатной версии. В левой части панели можно настроить разрешение (1280×768 или 768×1280), движение камеры (Camera Control), кисти (Motion Brush). Кроме того, в режиме Gen-2 можно управлять интенсивностью движения объектов на видео. После того как заданы все параметры — нажимаем Generate 4s (в режиме Gen-2) или Generate (в режиме Turbo). Ждем окончательной генерации ролика и скачиваем его.
К сожалению, у сервиса весьма скудные тестовые (бесплатные) возможности. По умолчанию, на каждый новый аккаунт выдается 125 кредитов, которых хватит лишь на 25 секунд, так как 1 секунда созданного сервисом видео оценивается в 5 кредитов. В зависимости от того, какая модель используется для генерации ролика, его длительность может составлять от 4 до 10 секунд. Платные тарифы стартуют от $15 в месяц, что равно 625 кредитам — это 125 секунд в режиме модели Gen-3 Turbo (наиболее высокая скорость генерации) или 62 секунды в режиме модели Gen-3 Alpha (наиболее высокое качество).
Проект активно развивается: в июне 2024 года была представлена ИИ-видеомодель Gen-3 Alpha, а в конце октября — инструмент для оживления виртуальных персонажей Act-One (путем захвата и переноса движений и мимики живого человека) на базе этой модели.
Kandinsky («Сбер»/Sber AI)
Первая российская нейросеть, в которой можно создавать видео по запросу, в том числе на русском языке (помимо еще сотни других). С помощью Kandinsky генерируются ролики длительностью 5 секунд в трех разных исполнениях: 1:1 (512×12); 9:16 (384×640); 16:9 (640×384) с частотой от 8 до 32 кадров/с. Время генерации видео составляет в среднем около 4 минут. Можно также выбрать модель: анимацию или видео. Получить бесплатный доступ к Kandinsky Video можно через веб-сервис Fusionbrain.ai или через телеграм-бота @kandinsky21_bot (Kandinsky by Sber AI).
Чтобы воспользоваться нейросетью, необходимо зарегистрироваться, выбрать раздел «Видео», определиться с форматом видео и написать текстовый запрос. После этого достаточно нажать кнопку «Создать видео», подождать несколько минут и скачать готовый ролик. На данном этапе нейросеть выдает видеоролики, больше похоже на анимацию, чем на реальность. Тем не менее продукт понемногу развивается — есть смысл понаблюдать за ним.
Visper («Сбер»/Sber AI)
Еще один российский нейросетевой продукт, специализирующийся на создании видеороликов с ведущим в кадре, который готов озвучить текст новостной заметки, обучающее видео или что-то еще. Пользователь может выбрать аватар из восемнадцати женских и одиннадцати мужских готовых персонажей, озвучку из четырех женских голосов и шести мужских. На тарифе «Бизнес» можно создать уникальный аватар, например, с помощью селфи. Перед созданием видео необходимо определиться с форматом видео (горизонтальный или вертикальный), фоном, озвучиваемым текстом, языком озвучки, интонацией голоса озвучки и другими деталями.
В бесплатном режиме у пользователя есть 2 минуты, однако нам воспользоваться ими не удалось — сервис постоянно выдавал ошибку при попытке сгенерировать видео. У сервиса есть платные тарифы: поминутный (от 90 рублей за 1 минуту), подписка (1490 рублей в месяц за 20 минут видео) и бизнес (индивидуальные условия). Это узкоспециализированный инструмент, который не совсем корректно сравнивать с универсальными ИИ-видеомоделями, представленными выше. Тем не менее это интересный российский продукт
Genmo
Еще один интересный сервис из США, гендиректор которого Парас Джайн (Paras Jain) выступает за максимальное распространение ИИ-технологий среди людей. Именно поэтому у Genmo открытый исходный код. Но перейдем к самому продукту.
После регистрации мы сразу попадаем в рабочее пространство, где есть поле для текстового промта (Describe your video...), строка со случайными вариантами готовых промтов, настройки генерации (кнопка слева внизу с соответствующим символом) и запуск генерации (кнопка Generate). Можно выбрать между двумя моделями: Mochi или Legacy (v0.2). В режиме Legacy (v0.2) можно выбрать соотношение сторон (портрет, квадрат, пейзаж), длительность видео (2, 4 или 6 секунд), степень движения на видео (ползунок в процентах), зацикливать или нет. Убрать водяные знаки с видео и создать видео в режиме Stealth Mode, чтобы его не видели другие участники сервиса, можно только на платном тарифе.
В режиме Mochi на бесплатном уровне можно задействовать лишь параметр Seed, который задает степень случайности при генерации модели — его стоит изменить, если полученный по запросу результат не соответствует ожиданиям. После выбора всех параметров можно нажимать Generate. Бесплатная версия позволяет генерировать 30 видео в день с логотипом продукта, причем два видео в режиме быстрой генерации. Платные версии начинаются от $10 в месяц (80 видео в месяц и 8 быстрых генераций в день).
Мы расскажем об инженерных улучшениях, связанных с применением разъемов USB, а также о некоторых маркетинговых хитростях, которыми пользуются вендоры для стимулирования продаж.
Stable Video Diffusion (Stability AI)
При первичной регистрации выдают по 40 кредитов ежедневно. Одна любая генерация по картинке стоит 10 кредитов, по тексту — 11. При необходимости кредиты можно докупить: $10 за 500 кредитов (50 генераций) или $50 за 3000 кредитов (300 генераций). Месячных и годовых планов подписки нет, как и других пакетных предложений по кредитам.
Чтобы сгененрировать видео, надо выбрать Generate, затем откроется рабочее окно с двумя опциями: Image (генерация по картинке) и Text (генерация по тексту). Также висит предупреждение о том, что сейчас сервис находится в стадии открытого бета-тестирования, поэтому все сгенерированные видео автоматически публикуются в общем доступе. В разделе генерации по картинке нет никаких настроек, кроме рекомендации закачивать изображения с разрешением 1024×576, 576×1024 или 768×768 пикселей для лучших результатов. В разделе генерации по текстовому описанию предусмотрена возможность воспользоваться случайным промтом (Try random promt), а также выбрать соотношение сторон (16:9, 9:16, 1:1) и стиль, в котором будет выполнено видео (17 вариантов).
Это одна из немногих нейросетей, где процесс генерации видео существенно отличается: например, при генерации по промту сервис сначала создает четыре варианта статического изображения на выбор. И только после выбора пользователем одного из них будет сгенерировано соответствующее видео. На мой взгляд, результаты средние, а видео не особо динамичные. Сервис гораздо лучше приспособлен под создание изображений — на это намекает даже дополнительная стадия в виде выбора промежуточной отправной картинки при генерации видео.
Luma (Luma AI)
Как и в случае с Google Veo 2, нам не удалось протестировать нейросеть Luma самостоятельно, так как после регистрации аккаунт был определен в лист ожидания.
Система сообщила, что периодически неизвестным образом выбирает тех, кому даровать бесплатный доступ. Если есть желание, то платный тариф можно приобрести сразу: расценки типичные для сегмента ИИ-видеомоделей и начинаются от $10 в месяц за 3200 кредитов, которые можно расходовать на 1080p-картинки и 720p-видео (для некоммерческого использования).
Как и Stable Video Dissusion, этот сервис больше подходит для небольшой анимации изображений. Несмотря на то, что Luma умеет генерировать видео длительностью в 5 секунд с чистого листа исключительно про промту, лучше все же задать ключевые кадры — так нейросеть выдает более адекватные, соответствующие запросу видео. Интерфейс Luma крайне простой, поэтому, если вы уже попробовали один из сервисов выше, никаких сложностей при взаимодействии с оным возникнуть не должно.
Pixverse
Еще один неплохой нейросетевой видеосервис с тестовым режимом, в рамках которого дают 90 приветственных кредитов, и по 60 кредитов за ежедневную авторизацию. При этом генерация одного видео длиной 5 секунд стоит 30 кредитов, а 8 секунд — 60 кредитов. То есть в день можно создать одно-два бесплатных видео. Подписка стартует от $10 в месяц, за которые на аккаунт выделяют 1200 кредитов или 20–40 роликов в зависимости от их длительности. Разрешение роликов по умолчанию 720p, но на более дорогих тарифах есть возможность переключиться на 1080p.
Чтобы сгенерировать первое видео, необходимо зарегистрироваться и перейти в раздел Create, где перед нами в нижней части экрана откроется окно настроек. Там можно выбрать версию нейромодели, длительность и стилистику видео, наложить эффекты, выбрать ключевые кадры, соотнести движения губ с речью и создать персонажей, которые будут участвовать в роликах. После создания видео можно улучшить его качество за 80 кредитов с помощью кнопки Upscale.
Fliki
В этом сервисе генерировать видео можно с помощью текстовых запросов, сценариев, презентаций и даже блогов. То есть нейросеть способна оценить что-либо из перечисленного и на основе этого создать видео. Также Fliki может переводить загруженные в нее готовые видео и озвучивать новые видео разными языками и диалектами.
Для создания первого видео нужно зарегистрироваться и сразу после попадания в рабочее пространство выбрать способ генерации видео и задать текстовое описание, а затем ввести запрос (поддерживается в том числе русский язык). Сервис может задать дополнительные вопросы, например, попросить определиться с соотношение сторон и языком озвучки. Этот сервис отличается от многих других тем, что после генерации видео открывается в редакторе, где его можно доработать с помощью разных инструментов. В то же время большинство полученных нами видео по своей структуре были больше похожи на обучающие презентации с небольшими анимационными вставками. Так что у сервиса ограниченный диапазон применения.
Существует бесплатный тариф — 5 минут в месяц (длительность одного видео не более 1 минуты). Платные предложения стартуют от $28 в месяц, что соответствует общему таймингу в 180 минут и длительности отдельного видео до 15 минут.
Выводы
Рынок нейросетей, способных генерировать видео, стремительно развивается. Помимо упомянутых выше есть ряд высококачественных ИИ-сервисов в этой категории, недоступных для россиян. Это Sora Turbo (OpenAI), Movie Gen (Meta*) и Firefly Video (Adobe) — все три продукта родом из США и не открываются с российских IP-адресов. По качеству видео каждую из нейросетей имело бы смысл сравнивать с Veo 2, Hailuo AI и Kling. Тем не менее даже в тех странах, где они доступны, для большинства пользователей пока речь идет только о заявках в лист ожидания. 9 декабря прошлого года OpenAI открыла доступ к Sora Turbo подписчикам ChatGPT Plus и Pro, то есть на платной основе.
Остальные, представленные в материале нейросети доступны из России, однако оплатить их можно только с помощью иностранных банковских карт. В том, что касается качества создаваемого контента, из доступных в нашей стране сервисов лидируют китайские Hailuo AI и Kling. По разнообразию инструментов для работы с генерацией видео достойно выглядят Fliki и Pixverse. Российские продукты в сегменте видеогенерации пока существенно уступают зарубежным сервисам. В то же время нужно помнить, что даже самые продвинутые ИИ-модели продолжают сталкиваться с серьезными видеоартефактами и нейросетевыми галлюцинациями. К тому же большинство сервисов даже на платных тарифах не позволяет создавать ролики длительностью больше 5–10 секунд, что накладывает ограничения на их практическое использование.
*Компания признана экстремистской организацией, ее деятельность запрещена на территории России
Опубликовано 30.01.2025