Мультимодальная нейросеть ruDALL-E генерирует картинки по описанию

Логотип компании
02.11.2021
Мультимодальная нейросеть ruDALL-E генерирует картинки по описанию
Сбер создал первую в мире нейронную сеть ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке.

Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели: ruDALL-E XL, содержащая 1,3 млрд параметров и ruDALL-E 12B с 12 млрд параметров.

Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив ее с сервиса Github. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.

Архитектура модели DALL-E для английского языка была впервые представлена OpenAI в 2021 году, однако эта модель так и не была полностью выложена в открытый доступ. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud воспроизвели код и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Кристофари, получив аналогичный результат для русского языка. В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тысячи GPU-часов на массиве данных из 120 млн пар «текст-изображение». Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ.

Читайте также
Являясь частью искусственного интеллекта, машинное обучение (Machine Learning, ML) открывает все больше возможностей бизнесу. Его внедряют для трансформации процессов, развития транспорта, логистики, АПК и других отраслей, а экономический эффект применения ИИ составляет более триллиона рублей. Рассмотрим, какие прикладные задачи компаний решает ML, приведем примеры внедрения, поговорим про подход Retrieval-Augmented Generation (RAG) и дадим чек-лист качественной интеграции и использования ИИ в реальном секторе.

Похожие статьи