Google представила языковую модель Gemma 3
В компании считают, что им удалось достичь идеального баланса между производительностью и эффективностью. Gemma 3 демонстрирует отличные результаты, превосходя модели Llama-405B, DeepSeek-V3 и o3-mini в тестах человеческих предпочтений, согласно рейтингу Эло. Кроме того, по расчетам Google, модель опережает Llama 3 от Meta, для которой требуется 16 графических процессоров.
Gemma 3 разработана с учетом экономии вычислительных ресурсов. В отличие от гигантских моделей вроде R1, у которых число параметров может доходить до сотен миллиардов, новая разработка Google предлагает варианты с 1, 4, 12 и 27 миллиардами параметров. Это делает ее гораздо более доступной для работы даже на устройствах без мощных серверных решений.
Одним из ключевых факторов высокой эффективности стало использование технологии «дистилляции» знаний. Этот метод позволяет переносить знания из более крупной нейросети в компактную модель, повышая ее возможности при меньших затратах вычислительной мощности. Кроме того, модель прошла несколько этапов оптимизации, включая обучение с подкреплением на основе обратной связи с человеком (RLHF), машиной (RLMF) и выполнением задач (RLEF), что значительно улучшило ее способность работать с текстами, кодом и математическими расчетами.
RLHF (обучение с подкреплением на основе обратной связи от человека) — помогает сделать ответы более полезными и безопасными.
RLMF (обучение с подкреплением на основе обратной связи от машины) — улучшает математические способности модели.
RLEF (обучение с подкреплением на основе выполнения) — увеличивает точность кода и логики.
По сравнению с предыдущей версией Gemma 2 новая модель получила более длинное контекстное окно – с 8 000 до 128 000 токенов. Это означает, что теперь она может анализировать более крупные фрагменты текста, что особенно полезно для обработки длинных документов. Еще одно важное улучшение – поддержка мультимодальности, то есть возможности работать не только с текстом, но и с изображениями. Это позволяет задавать модели вопросы о содержимом картинок. Кроме того, Gemma 3 теперь поддерживает более 140 языков, тогда как предыдущая версия работала только с английским.
Корпорация также уделила внимание вопросам безопасности. Одна из проблем языковых моделей – возможность запоминать обучающие данные, что может привести к утечке информации. Исследователи компании протестировали модель и выяснили, что в сравнении с предшественниками Gemma 3 запоминает длинные тексты с гораздо меньшей вероятностью, что снижает риски потенциальных утечек.
Между тем, тайваньская компания Foxconn официально представила свою первую большую языковую модель искусственного интеллекта (ИИ) под названием FoxBrain.
Источник: Google