Китайский DeepSeek меняет правила игры в AI: дешевле и мощнее, чем ожидалось
В чём главный прорыв DeepSeek?
Модель DeepSeek сравнима или лучше, чем GPT-4o и Claude-3.5 Sonnet, причём LLM обучался примерно на 2.788 млн GPU-часов, что в разы меньше, чем было принято считать «нормой» у OpenAI. В чем секрет?
8-битная арифметика
Вместо FP16-формата (используемого в США), инженеры DeepSeek применили FP8, урезав память и пропускную способность вдвое. Для массивных моделей c миллиардными параметрами это критически уменьшает расходы и даёт возможность тренировать «большие сети» на ограниченном железе.
Иновационная технология Mixture of experts
671 млрд параметров в модели, но лишь 37 млрд активны в конкретный момент. Это снижает энергопотребление, сохраняя качество вывода.
Дистилляция
Берут огромную «учитель-модель» (DeepSeek-R1) и обучают «учеников» (меньше 2 млрд параметров), заставляя их генерировать схожие ответы. Так мини-модель получает навыки без прямого прохода по огромному датасету.
Мультитокеновый процессинг
Вместо обработки каждого слова по отдельности, DeepSeek считывает целые фразы. Это даёт двукратный прирост скорости при сохранении до 90% точности.
Критика и контраргументы
Сам Альтман (OpenAI) пока сдержанно отреагировал, приостановив повышение тарифов на ChatGPT, признав, что DeepSeek дёшево даёт аналогичный функционал. Что позитивно для пользователей.
Chamath Palihapitiya — известный инвестор — называет AI-модельбилдинг «ловушкой для денег», ведь DeepSeek показывает, что гигантские бюджеты не гарантируют превосходства.
Скептики отмечают, что реальное качество «в полевых условиях» ещё нужно подтвердить. Есть подозрения, что DeepSeek силён в ограниченном наборе задач. Тем не менее, результаты benchmark-тестов говорят об уровне GPT-4o/Claude 3.5.
Как DeepSeek задел криптобиржи и токены
AI-токены (часть их на Solana, Ethereum и др.) резко упали, поскольку их ценность была привязана к «дефициту» AI-ресурсов, а теперь спрос на большие капиталовложения может упасть.
Появилось множество фейковых «DeepSeek AI» токенов, стремящихся нажиться на ажиотаже. Участникам рынка рекомендовано быть крайне осмотрительными: «deepseek»-импостеры распространяются.
С точки зрения «долгого горизонта» это может, наоборот, популяризовать AI ещё сильнее, ведь технология станет доступнее.
Прогноз: что дальше?
Только что президент Трамп, Sam Altman (OpenAI) и Ларри Эллисон анонсировали многомиллиардную программу Project Stargate для AI-инфраструктуры США. Но DeepSeek продемонстрировал, что «большие деньги» не гарантия успеха. КНР (через DeepSeek) опережает США в инновациях низкого уровня (FP8, distillation, Mixture of experts). Если американские компании не адаптируются, их ROI на датацентры может обесцениться. Ведь если можно обучить мощную модель за $5 млн, для чего тогда многомиллиардные инвестиции? «Путь к дешёвому AI» открывает дорогу стартапам по всему миру.
Итог: DeepSeek ломает устоявшийся миф, что нужны огромные затраты ради превосходного AI. Модели можно оптимизировать и сжать. Это вызвало неопределнность в индустрии, столкнувшись с фактом, что лидерство OpenAI, Anthropic, Microsoft и прочих — более шаткое, чем предполагали. Возможно, после шума рынок стабилизируется, но общее восприятие эффективной AI-разработки уже не будет прежним.