GigaChat 2.0 вывел российский искусственный интеллект на новый уровень

Логотип компании
14.04.2025
GigaChat 2.0 вывел российский искусственный интеллект на новый уровень
Изображение: AI
Модель умеет работать с аудио, видео, текстами, картинками и в реальном времени анализировать данные из интернета.

Сбер представил обновлённую версию своей нейросетевой платформы — GigaChat 2.0. Это уже не просто чат-бот: теперь это полноценный мультимодальный помощник, способный понимать речь, изображения, видео и большие объемы текста, выдавая актуальные, проверенные данные с привязкой к источникам. Новый GigaChat 2.0 также встроен в голосовые помощники умных колонок Сбер, а одной из первых цифровых платформ, интегрировавших его, стала МАХ от VK.

Что изменилось в GigaChat 2.0

Главное новшество — поддержка мультимодальности. Искусственный интеллект теперь распознаёт голосовые аудиофайлы, понимает изображения, работает с видео по ссылкам (включая YouTube) и анализирует документы объёмом до 200 страниц. Например, пользователь может загрузить договор аренды и получить анализ с учётом актуальных российских законов, расшифровать аудиозапись врачебных рекомендаций или понять суть видеоурока.

Серьёзно улучшились возможности обработки аудио. Модель воспринимает звуковые данные напрямую, без преобразования в текст. Она умеет выделять главные смыслы, отвечать на вопросы по содержанию, распознавать устную речь, акценты, музыку и посторонние звуки. Возможности ограничены размерами файлов: до 60 минут или 30 мегабайт. Правда, на практике пока возникают ограничения форматов и объёмов при работе с аудиофайлами.

Работа с актуальными данными в реальном времени стала ещё одной ключевой особенностью. Теперь GigaChat 2.0 может искать информацию в интернете, отфильтровывать её, выделять главное и выдавать ссылки на проверенные источники. Это позволяет избежать устаревших данных, на которых была обучена модель, и уменьшает риск так называемых «галлюцинаций» — ошибок в выдаче.

Две версии — для разных задач

В линейке две версии: GigaChat 2 Pro — для повседневных задач, вроде написания текстов или быстрой справочной информации, и GigaChat 2 Max — для сложных профессиональных запросов. Max-модель уже получила первое место среди AI-моделей в бенчмарке MERA для русского языка и уверенно конкурирует с зарубежными аналогами вроде GPT-4 и LLaMA 70B.

Музыка, картинки и видео

GigaChat 2.0 научился генерировать музыку и песни по текстовому запросу — теперь максимальная длительность трека достигает трёх минут, а создать его можно за одну. Модель поддерживает генерацию композиций даже на иностранных языках, например, на китайском.

Работа с изображениями тоже вышла на новый уровень. Искусственный интеллект может анализировать содержимое фотографии, расшифровывать текст, советовать стили одежды, решать задачи или объяснять содержание квитанций.

В отношении видео GigaChat 2.0 умеет обрабатывать ссылки: модель анализирует аудиодорожку, рассказывает основную суть, отвечает на вопросы или выделяет ключевые моменты, включая ролики на английском или других языках.

Умные колонки и живой диалог

Впервые в России все умные колонки Сбера переведены на большую языковую модель. Это позволяет вести живой диалог с пользователем на понятном языке или в заданной роли. Теперь колонка держит нить разговора в 10 раз дольше, чем раньше, объясняет сложные вещи простыми словами или отвечает от лица, например, кинозвезды.

Модель поддерживает 18 вариантов настройки общения: выбор голоса, формата обращения (на «ты» или «вы»), стиля общения. Можно в одном обращении задать несколько команд, а колонка сама поймёт, когда нужно поставить будильник, включить музыку или найти информацию.

GigaChat 2.0 на платформе МАХ от VK

Одним из первых новых партнёров стала платформа МАХ от VK — отечественный аналог WeChat с мессенджером, мини-приложениями, чат-ботами и платежным сервисом. Пользователи могут с помощью GigaChat 2.0 создавать тексты, расшифровывать аудио, кратко пересказывать видео и статьи, получать помощь в профессиональных и повседневных вопросах.

GigaChat 2.0 стал важным шагом в развитии российских AI-сервисов. Благодаря интеграции с умными колонками, платформами и расширению функциональности, он превратился в полноценного универсального ассистента, который понимает и текст, и звук, и видео, и изображение — и умеет не просто отвечать, а анализировать, советовать и даже творить музыку.

Источник: ТАСС

Похожие статьи