Kandinsky 2.1: новый лидер в сегменте ИИ

Логотип компании
Kandinsky 2.1: новый лидер в сегменте ИИ
Россия и КНР, объединив свои научные потенциалы и производственные возможности, вполне могут войти в ТОП стран в сферах искусственного интеллекта, ИТ и сетевой безопасности. Это высказывание Президента РФ Владимира Путина широко процитировал все СМИ, освещавшие недавний визит китайского лидера Си Цзиньпина в Россию.

Нейросеть Kandinsky 2.1, созданная и обученная экспертами Лаборатории Сбер по искусственному интеллекту Sber AI и Института искусственного интеллекта AIRI, можно назвать яркой демонстрацией этого утверждения.

Начнем с того, что, по подсчетам Сбер, Kandinsky 2.1 по параметрам роста с легкостью опередила сверхпопулярный ChatGPT от OpenAI, который до этого имел статус самого быстрорастущего приложения в истории. Для сравнения – 1 млн уникальных пользователей обратились к Kandinsky 2.1 всего за первых 4 дня после ее выхода, а ChatGPT смог достичь таких показателей за 5 дней. Следующий 1 млн уникальных пользователей присоединились к отечественной нейросети всего за 2 следующих дня. За 6 дней с момента выхода Kandinsky 2.1 с ее помощью было сгенерировано свыше 10 млн изображений. Крупнейший веб-сервиса GitHub уже внес ее в ТОП-5 трендов мировых репозиториев.

Kandinsky 2.1 является обновленным поколением нейросети Kandinsky 2.0, запущенной летом 2022 г. и предназначенной для генерации картинок по текстовому описанию. По сравнению со своей предшественницей, модель 2.1 значительно улучшена. Так, если Kandinsky 2.0 содержала 2 млрд параметров и была обучена на 1 млрд пар «текст - изображение», то последующая версия не только унаследовала веса предыдущей версии, но также прошла дополнительное обучение на 170 млн пар «текст - изображение» высокого разрешения, а затем - дообучение на отдельно собранной коллекции данных из 2 млн пар качественных изображений, в том числе и таких традиционно сложных для нейросетей, как лица людей, и содержит уже 3,3 млрд параметров. Кроме того, как сообщают разработчики, кардинально улучшить генерацию изображений в высоком разрешении у Kandinsky 2.1 позволила новая обученная модель автоэнкодера, которая используется для декодирования векторных представлений изображений.

Kак и ее предшественница, Kandinsky 2.1 способна обрабатывать запросы на 101 языке. Эксперты полагают, что этим параметром она выгодно отличается от своих ближайших конкурентов - Midjourney, Stable Diffusion и DALL-E. Нейросеть способна генерировать изображения по их текстовому описанию более чем в 20-ти вариантов стилей, в числе которых «Киберпанк», «Аниме», «Малевич», ренессанс, классицизм и советские мультфильмы, может смешивать несколько рисунков, дорисовывать изображение, создавать картину в режиме бесконечного полотна (inpainting/outpainting), и все это займет несколько секунд.

Эксперты уже выявили и недостатки последней версии. Так, пишут они, из-за большой нагрузки на сервис нейросеть может не сработать, часто приходится долго ждать, пока будет сгенерировано изображение, иногда появляются ошибки и на сайтах, и в телеграм-боте. И, как и большинству современных нейросетей, Kandinsky 2.1 не всегда удается генерация изображений людей.

«Думаю, у каждого найдется задача для Kandinsky 2.1, и поэтому улучшенная модель, как и ее предыдущая версия, находится в открытом доступе, - прокомментировал в СМИ первый заместитель председателя правления Сбербанка Александр Ведяхин. – Нейросеть бесплатна, и доступна для тестирования всем желающим».

В настоящее время Kandinsky 2.1 доступна в мобильном приложении «Салют» Сбера, на умных устройствах Sber при помощи команды «Запусти художника», в Telegram-боте, на промостранице модели, на fusionbrain.ai и на платформе ML Space.

Похожие статьи