Прорыв года? Изменит ли DeepSeek рынок ИИ

Логотип компании
Прорыв года? Изменит ли DeepSeek рынок ИИ
изображение создано нейросетью Шедеврум
Две модели искусственного интеллекта, выпущенные китайской компанией DeepSeek, поставили ее в один ряд с лидерами индустрии. Как компании удалось добиться невероятного прогресса за два года при микроскопическом бюджете и как это повлияет на будущее отрасли, рассказывает IT-World.

DeepSeek — ведущий китайский стартап в области ИИ. Компания была создана в 2023 году с целью «исследовать сущность общего искусственного интеллекта». «Наша цель — AGI, а это значит, что нам нужно изучить новые структуры моделей, чтобы реализовать более сильные возможности модели при ограниченных ресурсах», — сказал генеральный директор DeepSeek Лян Вэньфэн.

Как ChatGPT, но дешевле

Спустя всего два года после основания DeepSeek перевернула представления о разработке искусственного интеллекта. И не только тем, что поставила под сомнение лидирующую роль США в сфере ИИ (это сомнение, кстати, стоило американскому фондовому рынку $1 трлн обвала капитализации). Главное, компания доказала, что разработка современных моделей — это не так дорого и не так долго, как принято было думать.

В ноябре 2023 года компания представила первую одноименную модель. В мае 2024 года появилась DeepSeek V2, а уже в декабре — DeepSeek V3, сопоставимая с GPT-4o-0513 от Open AI. Последняя, стоит отметить, занимается исследованиями и разработкой искусственного интеллекта с 2015 года.

В январе 2025 года DeepSeek выпустила модель R1, которая через неделю возглавила список самых популярных бесплатных приложений в Apple Store. Ее характеристики соответствуют OpenAI o1-1217. Как китайскому стартапу это удалось?

Во-первых, благодаря новым инженерным подходам модели DeepSeek требуют на порядок меньше GPU для обучения, что делает процесс намного дешевле. Так, для обучения V3 использовались чипы Nvidia H800 — замедленная версия флагманского H100, которая была выпущена специально для китайского рынка в ответ на запрет США поставлять в Китай мощные GPU. При этом компании потребовалось всего 2 тыс. ускорителей по сравнению с десятками тысяч, которые обычно используются для обучения моделей аналогичного размера. Например, обучение чат-бота от Илона Маска Grok 2 потребовало 20 тыс. ускорителей Nvidia H100, а Grok-3 — уже 100 тыс. мощных GPU.

Такой подход в десятки раз снизил бюджет разработки моделей DeepSeek. Стоимость полного цикла обучения DeepSeek V3 составила $5,5 млн, в то время как LLaMA-3.1 405B потребовала порядка $60 млн, GPT-4o — более $100 млн.

Во-вторых, китайский стартап поразил мир невероятной скоростью освоения технологии. Фактически компания смогла приблизиться к достижениям OpenAI за несколько месяцев, что считалось абсолютно невозможным. Объяснение простое: в DeepSeek не тратили время на разработку с нуля, а использовали существующие ИИ-модели с открытым исходным кодом.

Технические фишки

Итак, какие технические решения помогли DeepSeek совершить прорыв в области ИИ?

1. Использование Multi-head Latent Attention (MLA) и DeepSeekMoE для экономичного обучения модели и эффективной генерации.

Так, MLA позволяет извлекать ключевые детали из текста. Улучшения этого метода, которые провела DeepSeek, помогли значительно сократить размер кэша Key-Value (KV). Снижение размера KV помогает решить проблему чрезмерного потребления памяти, что улучшает производительность больших языковых моделей.

Как большие языковые модели меняют бизнес-процессы

DeepSeekMoE — это разновидность архитектурного подхода в машинном обучении Mixture of Experts, который использует несколько специализированных моделей (экспертов) для обработки входных данных. DeepSeek адаптировала его, сделав выбор экспертов для генерации более гибким и комбинированным.

2. Использование Group Relative Policy Optimization (GRPO).

DeepSeek-R1-Zero обучена на синтетических или искусственно созданных данных методом Reinforcement Learning (RL), который позволяет системам совершенствовать свои действия, взаимодействуя с окружающей средой. То есть методом проб и ошибок получая обратную связь.

В DeepSeek разработали подход GRPO — это алгоритм обучения с подкреплением, который позволяет модели эффективно оптимизировать ответы без использования функции ценности. По сути, это усовершенствованный алгоритм Proximal Policy Optimization (PPO), который используется в области RL. Разработчики DeepSeek убрали из него модель критика, чем облегчили архитектуру решения.

Почему это меняет всё

Прорыв DeepSeek в долгосрочной перспективе означает, что мощные ИИ-инструменты станут более доступны, а скорость развития ИИ резко возрастет. Несмотря на отличные результаты в метриках и сопоставимый уровень работы с OpenAI-моделями, DeepSeek выложила код обучения и веса модели в открытый доступ. И конечно, это меняет расклад в мировой гонке ИИ, и дело не только в том, что Китай усилил позиции. Пример DeepSeek может вдохновить разработчиков по всему миру.

В России бизнес активно использует Open Source-модели ИИ из-за требований ИБ по сохранению данных в контуре предприятия — проприетарные решения от лидеров отрасли, тех же Open AI и Google, предусматривают отправку данных на их серверы. А значит, российские компании смогут применять решения DeepSeek при развертывании LLM-платформы для создания чат-ботов, получив доступ к наиболее продвинутым современным технологиям.

Что получает малый и средний бизнес от внедрения ИИ?

Так, DeepSeek уже выложила в открытый доступ дистилляты своих ИИ-моделей (более компактные версии, которые обучаются на основе большой модели). В скором времени мы ожидаем появления «уменьшенных» версий DeepSeek, которые будут еще проще в развертывании.

DeepSeek доступен обычным пользователям — можно скачать приложение в App Store и Google Play на смартфон, пройти простую регистрацию и использовать чат-бот бесплатно. Приложение не имеет ограничений для россиян и не требует использования VPN. В будущем можно ожидать появления платных пакетов с расширенной функциональностью.

Помимо большого числа практических применений DeepSeek в решениях для бизнеса, можно ожидать, что открытость технологии поможет многим другим ИИ-моделям, включая российские, подтянуться к топовым версиям.

И конечно, DeepSeek будет выпускать новые решения. Уже известно о новейшей модели Janus-Pro-7B для генерации и обработки картинок — прямого конкурента DALL-E 3.

Ложка дегтя в бочке меда

Несмотря на общие восторги, некоторые эксперты сомневаются в указанной стоимости разработки DeepSeek. Ситуацию осложняет то, что хотя обе модели частично открыли исходный код, их данные для обучения не раскрываются. Также есть вероятность, что DeepSeek занижает показатели по процессорам и их количеству. Но даже если это так, сам факт, что DeepSeek смогла догнать и кое в чем превзойти нейросеть Open AI — знаковый сигнал для рынка, который точно не будет прежним.

Опубликовано 31.03.2025

Похожие статьи