Atameken Business запускает виртуальную ведущую на казахском

07.03.2023
Atameken Business запускает виртуальную ведущую на казахском
7 марта зрители телеканала познакомились с i-Sana.

В казахстанском медиапространстве телеканал Atameken Business можно назвать пионером по внедрению цифровых технологий, основанных на искусственном интеллекте. Уже три года в прямом эфире "работает" i-Sanj – первый виртуальный ведущий в Казахстане. Это роботизированный двойник известного актера Санжара Мади. Однако, уже сегодня, 7 марта, на телеканале появится очередная цифровая новинка – первая виртуальная ведущая на казахском языке – i-Sana.

"Для нас принципиальный вопрос в данном проекте – это развитие казахского языка. Очень важно интегрировать казахский язык в мировые технологические процессы и системы. Развитию казахского языка в этом направление большое внимание уделяется нашими стейкхолдерами. Здесь хочу особо отметить, что с первых дней работы телеканал Atameken Business и сайт Inbusiness.kz вещают на двух языках. При этом казахская редакция не является калькой программ и статей на русском языке – это полноценные редакции профессиональных журналистов со своим пулом экспертов. Мы надеемся, что наш новый продукт на родном языке – виртуальный ведущий – придется по душе казахоязычной аудитории", - сказал Канат Сахария, глава медиахолдинга.

Реальным прототипом новой виртуальной ведущей стала журналист, телеведущая, обладатель Гран-при "Қазақ аруы" - Сания Темирхан.

Если говорить о технической стороне вопроса, то разработка велась на языке программирования Python. Над созданием виртуальной ведущей работали Александр Серов и Вячеслав Бублик. Они поделились основными тонкостями процесса.

Для работы с моделями машинного обучения разработчики применяли широко распространенный фрэймворк PyTorch. Для покадрового преобразования видео разработчики использовали модель машинного обучения wav2lip. Как это работает?

Wav2lip состоит из нескольких моделей: экспертная модель, генератор изображений по аудио, дискриминатор визуального качества изображения. Для преобразования голоса использовали софт AutoVC, который конфигурировали для повышения качества. Для синтеза речи использовали Tacotron 2 – это нейросеть по генерации речи из голоса.

Уникальность проекта заключатся в том, что разработчики создали максимально приближенный вариант ведущего к реальному человеку, вплоть до артикуляции, мимики и синтезировали казахскую речь.

Отдельно стоит остановиться на работе лица казахоязычной виртуальной ведущей. Сначала разработчики должны научить экспертную модель определять, соответствуют ли друг другу фрагмент аудио (речь) и видео (лицо). На этом шаге очень важно аккуратно подготовить входные данные: определять расположение лица в кадре, убрать посторонний шум из аудио, обеспечить синхронизацию. Далее следуют этапы машинного обучения.

На следующем же шаге разработчики учат генератор создавать на основе аудио изображение, которое удовлетворит экспертную модель по соответствию аудио, а также удовлетворит дискриминатор по качеству изображения.

Далее по важности следует работа с голосом. Основная сложность в работе с голосом заключается в том, чтобы извлечь из речи слова и отсечь при этом индивидуальные характеристики речи. Затем на основе извлеченного контента восстановить речь, только уже с другими индивидуальными характеристиками речи. Новый синтезированный голос может озвучить информацию любой сложности, ясно и выразительно, насколько это возможно в условиях работы искусственного интеллекта.


Похожие статьи