Алексей Наймушин: «Нейросети решают проблему чистого листа, но не заменяют мастера»
ВГИК — старейший вуз, готовящий специалистов для киноиндустрии, но сегодня он активно занимается цифровизацией. Насколько легко новые технологии сочетаются с консервативным подходом к кинопроизводству?
Да, ВГИК — это первая государственная киношкола мира, в прошлом году отметили 105-летие. И цифровизация у нас началась не вчера. Давайте вспомним, когда кино полностью перешло на цифровые технологии: сейчас на пленку уже почти никто не снимает, все давно работает в «цифре». Так что процесс идет годами, и говорить, что мы впервые сталкиваемся с трудностями цифровизации, было бы неправильно.
Кинопроизводство постоянно перестраивается: каждый год появляются новые технологии. У нас, например, есть лаборатория motion capture — захвата движения, а также виртуальная студия. В прошлом году открылся Институт анимации и цифровых технологий, где открываются новые направления подготовки, такие как «Режиссура интерактивных медиа и голографии» и «Моделирование виртуальных персонажей в виртуальном пространстве». Совместно со СБЕРом запускается Школа 21 где открывается направление по обучению применения ИИ и нейросетей в кинопроизводстве. Сегодня наши студенты осваивают не только классическую анимацию, но и цифровую — в 2D и 3D.
Так что с цифровизацией проблем нет. Проблема в другом: технологии развиваются стремительно, а образовательный процесс регламентирован. Плюс угнаться за современными цифровыми решениями тяжело финансово. Мы бюджетное учреждение, не самое большое, и не можем сказать, что находимся на передовой технологического прогресса. Но и в числе отстающих тоже не числимся.
Мы готовим специалистов, которые востребованы на рынке. Наши выпускники работают, например, на проекте «Шоу Фантастика» на Первом канале. «Союзмультфильм» и другие ведущие анимационные студии посещают наши экзамены и защиты дипломных проектов с целью пригласить студентов на свои проекты. Крупные продакшены тоже охотно их нанимают. Даже если в вузе нет техники последнего поколения, фундаментальная база у студентов есть, и на реальных площадках они быстро догоняют и входят в индустрию безболезненно.
Вы учите студентов работать с новыми технологиями, но ведь они развиваются с космической скоростью. Кто их этому обучает? Ведь для того, чтобы чему-то научить, нужно, чтобы сам преподаватель был в теме.
Во-первых, у нас есть индустриальные партнеры, которые регулярно проводят мастер-классы для студентов. Они дают нашим ребятам скидки, доступ к современному оборудованию и возможность работать с новейшими технологиями.
И часто бывает так, что наши выпускники, ушедшие в эти компании, через пару лет возвращаются и передают свои знания новым студентам.
Более того, у нас есть совместные образовательные программы. Например, технологический лидер приходит к нам и говорит: «Мы закупили LED-экраны высокого разрешения, хотим готовить специалистов, которые смогут снимать видеоклипы, сцены в реальном времени прямо на экранах, а не на хромакее». Они готовы инвестировать, помочь с разработкой программы, предоставить свои площадки. И мы запускаем обучение. Это живой процесс.
Цифровизация ускоряет учебный процесс, но делает ли она студентов лучше подготовленными или, наоборот, снижает уровень профессионализма?
Сказать однозначно, лучше или хуже, сложно. Некоторые процессы действительно ускорились. Но важно не само ускорение, а то, кто работает с инструментом. Если студент не умеет правильно формулировать запрос, если у него нет базовых знаний, никакая нейросеть за него ничего не сделает.
Сценарное дело — отдельная история. В прошлом году у нас был случай: студент подал на конкурс сценарий, написанный нейросетью, и прошел в первый тур. Но на втором этапе, при личном собеседовании, стало ясно, что у него не хватает профессиональных навыков — дальше он не прошел.
Наши преподаватели — опытные мастера с огромной насмотренностью, многие работают по 20-30 лет. Каждый год они просматривают тысячи работ, и им мгновенно видно, когда текст написал не человек. Поэтому сценаристы у нас нейросетями не злоупотребляют.
А вот в анимации и мультимедиа ситуация другая. Там нейросети действительно помогают: их используют для промежуточной анимации, генерации изображений как отдельно, так и в качестве плагинов к известным графическим редакторам и программам для монтажа. Но даже здесь нейросети не делают за студента основную работу. Мы видели случаи, когда один студент вручную рисовал раскадровку быстрее, чем другой, который ждал, пока нейросеть сгенерирует 100 вариантов.
Но у нейросетей есть несомненный плюс: они помогают преодолеть страх чистого листа. Бывает, человек сидит перед пустым экраном и не знает, с чего начать. Нейросеть может дать черновик, заготовку, которую потом полностью перепишут, но она запускает мыслительный процесс. Человек входит в состояние потока, и в итоге от исходного текста не остается ничего, но главное — он начал работать.
Расскажите про вашу лабораторию искусственного интеллекта.
Лаборатория работает уже почти два года. Сначала мы тестировали зарубежные и российские нейросети, а сейчас активно проводим исследования на факультете виртуальной реальности и искусственного интеллекта. Последняя презентация, которую демонстрировали коллеги из Института анимации и цифровых технологий, включала 139 слайдов и результаты исследования почти двух десятков различных нейросетей.
Студенты постоянно экспериментируют с нейросетями для звука, изображений, анимации. Даже если какая-то технология не подходит для работы, важно понимать ее возможности и ограничения. Например, зарубежные нейросети для очистки звука искажают речь, потому что по-другому обрабатывают артикуляцию — особенно русскую букву «Р». Только в последние полгода зарубежные открытые нейросети начали нормально работать с липсингом для русского языка. Они отлично синхронизируют английскую речь с движением губ, но с русским были серьезные проблемы.
Давайте вернемся к вашей экспериментальной площадке. Что было самым интересным в ее развитии?
Прежде чем ответить, расскажу важную новость. В прошлом году мы подписали соглашение с компанией «Иннотех», которая входит в холдинг Т1.
Проблема в том, что зарубежные языковые модели либо платные, либо их доступ ограничен для России. А мы государственное бюджетное учреждение, и оплатить такие сервисы не всегда возможно. Из-за этого многие исследования наши студенты и преподаватели проводили за свой счет. «Иннотех» в своём дата-центре выделили нам графические процессоры и развернули большие языковые модели и нейросети, которые нам нужны.
В прошлом году мы провели две стратегические сессии. Первая была посвящена общему применению искусственного интеллекта в кино, а вторая — выбору конкретных проектов, которые мы хотим реализовать. Сейчас завершается развертывание инфраструктуры, и уже в феврале ВГИК получит доступ к необходимым нейросетям для генерации видео, картинок, звука. В том числе сейчас разворачивают даже нашумевший китайский DeepSeek.
А есть ли уже полностью созданные с использованием ИИ фильмы или анимационные проекты?
Да, ребята активно используют эти технологии в реализации своих творческих проектов, например нейрофильм «Якутия — родина моя» получил диплом конкурса «Россия — родина моя».
Но надо понимать, что нет фильмов, полностью созданных искусственным интеллектом, есть проекты, в которых активно использовались нейросети и искусственный интеллект на всех этапах производства. Но под управлением и по запросам профессионально подготовленных студентов.
А как обстоят дела с виртуальными персонажами, цифровыми актёрами и виртуальными съемочными площадками?
Все эти технологии уже у нас есть. Более того, в этом году открывается новая образовательная программа — «Разработка виртуального персонажа в виртуальном пространстве». Она посвящена созданию полностью цифровых 3D-персонажей для игр, анимации, кино и метавселенных.
ВГИК активно использует Motion Capture: студенты работают в специальной студии, надевают датчики движения, а потом анимируют персонажей на основе записанных движений.
Также у нас есть виртуальная студия. Она позволяет в реальном времени интегрировать 3D-пространства в съёмочный процесс. Мы строим, например, виртуальную квартиру, и оператор с разных камер сразу видит её с нужных ракурсов. Это не постпродакшн на хромакее, а полноценный продакшен в режиме реального времени.
ВГИК уже тестировал различные нейросети. Некоторые из них настолько узкоспециализированные, что даже я, будучи из IT-сферы, о них раньше не слышал. Искусственный интеллект используется и в анимации, и в генерации музыки, и в написании сценариев.
Так что все технологии, которые вы перечислили, у нас уже есть и активно применяются.
Хочу спросить насчет профессий, которые могут исчезнуть. Вот, например, режиссер дубляжа — эта профессия всегда существовала, но теперь я могу просто открыть YouTube и встроенными инструментами искусственного интеллекта перевести любой ролик на русский язык без участия человека. Мне больше не нужен режиссёр дубляжа.
Режиссер дубляжа — это не просто взять оригинальный голос и заменить его на другой язык. Когда сводится полнометражный фильм, в нём может быть 10–15 тысяч звуковых дорожек, которые нужно грамотно распределить. В одной сцене одновременно могут звучать до 70 аудиофрагментов. Искусственный интеллект может помочь состыковать их с точностью до миллисекунды, но решать, какие звуки должны быть в кадре, всё равно должен человек.
Я вам приведу простой пример. Представьте сцену: дорога, рядом лес, на обочине стоят два человека и разговаривают. Вокруг шум листвы, шорох травы, одежда, речь одного, речь второго, мимо проехала машина — одна, вторая, третья, где-то вдалеке залаяла собака или ухнула птица. Есть такое понятие, как нарративный звук — когда мы не видим источник звука, но догадываемся, что он есть, на основе контекста. Режиссер дубляжа или звукорежиссер не просто заменяет голос, а выстраивает весь звуковой фон, правильно расставляет акценты, подбирает музыку. Искусственный интеллект пока может помочь с переводом, наложить звук, но сложную работу звукорежиссёра он выполнить не в состоянии.
А вот в простых роликах, например подкастах, уже есть нейросети, которые позволяют монтировать видео, снятое на три смартфона. Они анализируют звук, определяют, кто начал говорить, и переключают кадр на нужного человека, если говорят оба — ставят общий план, вырезают паузы, убирают ненужные моменты. В одиночку можно быстро смонтировать подкаст. Но если взять профессиональное ток-шоу, где важны ритм, драматургия, баланс звуков, нейросети пока не справляются.
Как вы думаете, может ли искусственный интеллект в будущем стать полноценным режиссером?
Может. Но будет ли он хорошим режиссером — это большой вопрос. И будем ли мы смотреть и любить фильмы, созданные таким режиссёром, тоже вопрос. Технически искусственный интеллект может сказать, как что-то сделать, но ведь режиссер на площадке не просто реализует свою задумку, он управляет процессом, говорит актёрам, куда встать, как повернуться, какие эмоции передать, как выставить свет. Режиссер через свой фильм передает собственное видение и восприятие мира, а как искусственный интеллект будет командовать на площадке и есть ли у него собственное видение и мироощущение, непонятно.
А вот если нет живых актеров, если мы говорим про анимацию, тогда да, вероятно, сможет. Искусственный интеллект уже умеет писать сценарии, да, это пока не самые качественные сценарии, но всё же. Может написать музыку, текст, может создать анимацию. Но считается ли такая анимация кино? Не каждое видео, которое длится полтора часа, можно назвать кино.
Давайте вернемся к ВГИКу. Вы говорили о нейросетях для кино и обучении искусственного интеллекта на основе ваших огромных архивов. Ведётся ли какая-то работа в этом направлении, или пока используете только готовые решения?
Мы уже проводили эксперименты. В 2023–2024 году мы взяли нейросеть и дообучили её на основе нашего архива киноафиш. У нас хранится огромное количество афиш за 100 лет — фильмы, которые снимались в Советском Союзе, выпускались «Никсами». Это настоящие киноплакаты, которые рисовали художники вручную, без компьютеров. Мы оцифровали несколько тысяч таких афиш и обучили нейросеть генерировать новые плакаты по заданным параметрам. Конечно, не всегда получаются шедевры, но некоторые проекты выглядят очень интересно.
Unreal Engine, облачный рендеринг, нейросетевые алгоритмы — все это уже преподается во ВГИКе?
Студенты в Институте анимации и цифровых технологий вовсю используют Unreal Engine в своих работах. Кроме того, наш телевизионный павильон для виртуального продакшена тоже работает именно на Unreal Engine.
Облачный рендеринг — это как раз то, что сейчас активно используется. Когда создаётся анимация, например мультфильм, художник делает раскадровку, описывает алгоритмы движения в программе — пусть будет Adobe After Effects или Premiere. Затем все это рендерится, но если делать это на локальном компьютере, то процесс займёт слишком много времени. Даже если взять современную видеокарту, например, RTX 4060, их сотни не купишь — одна такая карта стоит около 100 тысяч рублей. Обновлять весь компьютерный парк каждый год — тоже дорого.
Поэтому используется облачный рендеринг: часть процессов переносится на удалённые серверы, где стоят промышленные видеокарты, специально заточенные под такие задачи. Художник загружает свой проект в облако, нажимает кнопку, и через какое-то время получает готовый результат. Это существенно экономит время и ресурсы. Именно поэтому наши технологические партнёры, разворачивая нейросети в облаке, предоставляют нам доступ к таким мощностям, и этот же принцип будет использоваться и у нас.
Давайте напоследок поговорим о будущем. Планируете ли вы стать центром компетенции по цифровому кинопроизводству для всей отрасли?
Это очень хороший вопрос. Хотим ли мы этого? Да, хотим. Планируем ли? Да, планируем. Внедряем ли новые технологии? Постоянно. Но тут вопрос не только в наших амбициях. Мы можем тестировать технологии, апробировать их, но без поддержки технологических партнёров и государства невозможно работать с самым современным оборудованием. А по-хорошему, ВГИК должен не просто идти в ногу со временем, а исследовать и внедрять те технологии, которые только появятся на рынке завтра.
У нас есть тестовая площадка, где мы апробируем новые технологии. Например, недавно закончили тестирование оборудования для записи звука со сцены. В стране стоит задача импортозамещения, но практически всё профессиональное звуковое оборудование — импортное: микрофоны, пульты, системы обработки. Один из наших технологических партнеров предложил протестировать их разработки. Мы установили микрофоны на высоте 6–8 метров над сценой, записали звук и обработали его при помощи искусственного интеллекта. Вторым этапом тестирования стали направленные микрофоны, которые позволяют включать и выключать звук на разных частях сцены без необходимости в растяжках и стойках.
Эксперименты завершились в конце января, и мы пришли к выводу, что после некоторых доработок у этой технологии колоссальный потенциал в России. Сейчас партнер вместе с ВГИКом готовит запуск малого инновационного предприятия, чтобы довести разработку до коммерческого продукта.
Я правильно понимаю, что это решение в первую очередь для записи спектаклей? Но если человек выступает с микрофоном, там и так всё понятно, звук пишется без посторонних шумов. Другое дело — спектакли, где актёры не используют микрофоны.
Для спектаклей, но не только. Это универсальное решение для любых сценических выступлений — концертов, хоровых программ, театральных постановок. В спектаклях актеры не ходят с петличками, не держат в руках микрофоны, и это делает звукозапись сложной задачей. Новая технология позволяет разместить сетку направленных микрофонов над сценой. Пространство делится на квадраты, например, полтора на полтора метра, каждый микрофон фиксирует свой участок. Потом при обработке можно очищать, усиливать или отключать определённые зоны.
Это решение позволит полностью отказаться от петличек, ручных и подвесных микрофонов. Сейчас в театрах всё чаще используют LED-экраны на задней стене сцены для расширения пространства и добавления виртуальной глубины, а висящие микрофоны могут мешать проекции. Мы работаем над тем, чтобы к концу года выпустить пилотный проект и протестировать его в реальных условиях.
Опубликовано 04.03.2025