Новые достижения в мире бенчмарков ИИ: отчёт о сравнении

Новости

Современные бенчмарки появляются так же часто, как и нейросети. GPQA Diamond исследует уровень PhD-знаний, Lexometrica проверяет точность фактов, LLM Persuasion Benchmark анализирует навыки убеждения, а Chatbot Arena изучает предпочтения пользователей. Возникает вопрос: зачем нужен ещё один бенчмарк? Ответ прост: во-первых, они служат для независимого подтверждения результатов. Например, GPT-5.4 уверенно лидирует во всех четырёх тестах, в то время как Kimi K2.5 находится на шестом месте. Во-вторых, отсутствуют системные тесты, которые осуществляют сравнение российских моделей с глобальными. Наше исследование охватывает 54 модели с 32 сценариями на русском языке. Интересно, что Claude Sonnet 4.5 показывал худший результат в GPQA Diamond, но тем не менее, превосходит другие модели в управлении командой. Важный факт – все протестированные китайские модели доступны без VPN, в отличие от российских, которые остаются в стороне.