DeepSeek V4: Новый лидер в мире ИИ-бенчмарков

Новости

В сети появились предполагаемые результаты технического отчета DeepSeek V4, опубликованные пользователем @xiangxiang103. Скриншоты демонстрируют, как новый флагман китайской компании превосходит Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если информация окажется достоверной, то DeepSeek V4 станет новым эталоном в области ИИ.

На тесте MMLU-Pro, который оценивает междисциплинарные знания, DeepSeek V4 набрал 91,2 балла, в то время как ближайший конкурент, Gemini 3.1 Pro Preview, остановился на 90,0. Остальные модели, такие как GPT-5.3 и Claude Opus 4.6, показали 88,4 и 86,7 соответственно.

На математическом бенчмарке AIME 2025 DeepSeek V4 также лидирует с 96,4 балла, опережая Gemini 3.1 Pro Preview и GPT-5.3.

В Codeforces модель демонстрирует уровень сильного гроссмейстера, набрав 2767 баллов. Однако при решении реальных задач, как показал SWE-bench Verified, DeepSeek V4 достиг только 59,6%.

На WebArena DeepSeek V4 также уступает, набрав лишь 58,7%. Если утечка подтвердится, DeepSeek V4 станет заметным лидером на рынке больших языковых моделей, оставив за собой Gemini 3.1 Pro на втором месте. Ожидается официальный анонс от DeepSeek, который может кардинально изменить ситуацию в индустрии.