Китайский DeepSeek меняет правила игры в AI: дешевле и мощнее, чем ожидалось

В чём главный прорыв DeepSeek?

Модель DeepSeek сравнима или лучше, чем GPT-4o и Claude-3.5 Sonnet, причём LLM обучался примерно на 2.788 млн GPU-часов, что в разы меньше, чем было принято считать «нормой» у OpenAI. В чем секрет?

8-битная арифметика

Вместо FP16-формата (используемого в США), инженеры DeepSeek применили FP8, урезав память и пропускную способность вдвое. Для массивных моделей c миллиардными параметрами это критически уменьшает расходы и даёт возможность тренировать «большие сети» на ограниченном железе.

Иновационная технология Mixture of experts

671 млрд параметров в модели, но лишь 37 млрд активны в конкретный момент. Это снижает энергопотребление, сохраняя качество вывода.

Дистилляция

Берут огромную «учитель-модель» (DeepSeek-R1) и обучают «учеников» (меньше 2 млрд параметров), заставляя их генерировать схожие ответы. Так мини-модель получает навыки без прямого прохода по огромному датасету.

Мультитокеновый процессинг

Вместо обработки каждого слова по отдельности, DeepSeek считывает целые фразы. Это даёт двукратный прирост скорости при сохранении до 90% точности.

Критика и контраргументы

Сам Альтман (OpenAI) пока сдержанно отреагировал, приостановив повышение тарифов на ChatGPT, признав, что DeepSeek дёшево даёт аналогичный функционал. Что позитивно для пользователей.

Chamath Palihapitiya — известный инвестор — называет AI-модельбилдинг «ловушкой для денег», ведь DeepSeek показывает, что гигантские бюджеты не гарантируют превосходства.

Скептики отмечают, что реальное качество «в полевых условиях» ещё нужно подтвердить. Есть подозрения, что DeepSeek силён в ограниченном наборе задач. Тем не менее, результаты benchmark-тестов говорят об уровне GPT-4o/Claude 3.5.

Как DeepSeek задел криптобиржи и токены

AI-токены (часть их на Solana, Ethereum и др.) резко упали, поскольку их ценность была привязана к «дефициту» AI-ресурсов, а теперь спрос на большие капиталовложения может упасть.

Появилось множество фейковых «DeepSeek AI» токенов, стремящихся нажиться на ажиотаже. Участникам рынка рекомендовано быть крайне осмотрительными: «deepseek»-импостеры распространяются.

С точки зрения «долгого горизонта» это может, наоборот, популяризовать AI ещё сильнее, ведь технология станет доступнее.

Прогноз: что дальше?

Только что президент Трамп, Sam Altman (OpenAI) и Ларри Эллисон анонсировали многомиллиардную программу Project Stargate для AI-инфраструктуры США. Но DeepSeek продемонстрировал, что «большие деньги» не гарантия успеха. КНР (через DeepSeek) опережает США в инновациях низкого уровня (FP8, distillation, Mixture of experts). Если американские компании не адаптируются, их ROI на датацентры может обесцениться. Ведь если можно обучить мощную модель за $5 млн, для чего тогда многомиллиардные инвестиции? «Путь к дешёвому AI» открывает дорогу стартапам по всему миру.

Итог: DeepSeek ломает устоявшийся миф, что нужны огромные затраты ради превосходного AI. Модели можно оптимизировать и сжать. Это вызвало неопределнность в индустрии, столкнувшись с фактом, что лидерство OpenAI, Anthropic, Microsoft и прочих — более шаткое, чем предполагали. Возможно, после шума рынок стабилизируется, но общее восприятие эффективной AI-разработки уже не будет прежним.

Понравился пост? Поделитесь