Google представила языковую модель Gemma 3

Логотип компании
13.03.2025
Google представила языковую модель Gemma 3
Изображение: blog.google
Компания Google представила новую языковую модель Gemma 3, которая, по ее утверждению, приближается к точности мощной DeepSeek R1, но при этом использует в разы меньше вычислительных ресурсов. Если для работы R1 требуется 32 топовых графических процессора Nvidia H100, то Gemma 3 достигает 98% ее точности, используя всего один такой чип.  

В компании считают, что им удалось достичь идеального баланса между производительностью и эффективностью. Gemma 3 демонстрирует отличные результаты, превосходя модели Llama-405B, DeepSeek-V3 и o3-mini в тестах человеческих предпочтений, согласно рейтингу Эло. Кроме того, по расчетам Google, модель опережает Llama 3 от Meta, для которой требуется 16 графических процессоров.

Gemma 3 разработана с учетом экономии вычислительных ресурсов. В отличие от гигантских моделей вроде R1, у которых число параметров может доходить до сотен миллиардов, новая разработка Google предлагает варианты с 1, 4, 12 и 27 миллиардами параметров. Это делает ее гораздо более доступной для работы даже на устройствах без мощных серверных решений.

Google представила языковую модель Gemma 3. Рис. 1
Изображение: blog.google
Эта диаграмма ранжирует модели ИИ по баллам Chatbot Arena Elo; более высокие баллы (верхние числа) указывают на более высокие предпочтения пользователя. Точки показывают предполагаемые требования к графическому процессору NVIDIA H100. Gemma 3 27B занимает высокое место, требуя только один графический процессор, в то время как другим требуется до 32.

DeepSeek не нуждается в инвесторах

Одним из ключевых факторов высокой эффективности стало использование технологии «дистилляции» знаний. Этот метод позволяет переносить знания из более крупной нейросети в компактную модель, повышая ее возможности при меньших затратах вычислительной мощности. Кроме того, модель прошла несколько этапов оптимизации, включая обучение с подкреплением на основе обратной связи с человеком (RLHF), машиной (RLMF) и выполнением задач (RLEF), что значительно улучшило ее способность работать с текстами, кодом и математическими расчетами.

Google использует три метода оптимизации качества работы Gemma 3:
RLHF (обучение с подкреплением на основе обратной связи от человека) — помогает сделать ответы более полезными и безопасными.
RLMF (обучение с подкреплением на основе обратной связи от машины) — улучшает математические способности модели.
RLEF (обучение с подкреплением на основе выполнения) — увеличивает точность кода и логики.

По сравнению с предыдущей версией Gemma 2 новая модель получила более длинное контекстное окно – с 8 000 до 128 000 токенов. Это означает, что теперь она может анализировать более крупные фрагменты текста, что особенно полезно для обработки длинных документов. Еще одно важное улучшение – поддержка мультимодальности, то есть возможности работать не только с текстом, но и с изображениями. Это позволяет задавать модели вопросы о содержимом картинок. Кроме того, Gemma 3 теперь поддерживает более 140 языков, тогда как предыдущая версия работала только с английским.

Корпорация также уделила внимание вопросам безопасности. Одна из проблем языковых моделей – возможность запоминать обучающие данные, что может привести к утечке информации. Исследователи компании протестировали модель и выяснили, что в сравнении с предшественниками Gemma 3 запоминает длинные тексты с гораздо меньшей вероятностью, что снижает риски потенциальных утечек.

Между тем, тайваньская компания Foxconn официально представила свою первую большую языковую модель искусственного интеллекта (ИИ) под названием FoxBrain.

Читайте также
Сергей Анциферов: «Импортозамещение – вопрос не патриотизма, а выживания»
Роботы, цифровые двойники и импортозамещение – три ключевые темы, которые сегодня определяют будущее промышленности. Машиностроение давно перестало быть просто работой станков и конвейеров, теперь это ещё и сложная ИТ-инфраструктура. Российские заводы, которые ранее принадлежали BOSH прошли через радикальные изменения: уход западных вендоров, построение новой цифровой среды, внедрение автоматизации. Каково это восстанавливать ИТ-системы с нуля? Когда роботы смогут заменить людей на заводах? И правда ли, что управлять современным производством можно без иностранных технологий? Об этом IT-World рассказал Сергей Анциферов, ИТ-директор заводов в Энгельсе: ООО «Энгельс Свечи зажигания», ООО «Энгельс Электроинструменты» и ООО «Термотехника Энгельс».

Источник: Google

Похожие статьи