Война моделей: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6 — кто лидер в марте 2026
За одну неделю вышли GPT-5.4 и Gemini 3.1 Flash-Lite, а Claude Opus 4.6 продолжает доминировать в агентных задачах. Разбираем, кто и в чём сильнее.
Март 2026 года запомнится как месяц, когда три гиганта AI-индустрии выкатили обновления почти одновременно. 5 марта OpenAI представила GPT-5.4 с нативным управлением компьютером, Google продолжает расширять линейку Gemini 3.1, а Claude Opus 4.6 от Anthropic, вышедший в феврале, закрепился как лидер в агентном программировании. Разбираемся, кто и в чём сильнее.
GPT-5.4 — компьютер теперь управляется сам
OpenAI 5 марта выпустила сразу три модели: GPT-5.3 Instant для быстрых задач, GPT-5.4 Thinking для сложных рабочих процессов и GPT-5.4 Pro для максимально требовательных сценариев.
Главная новинка — нативное управление компьютером. GPT-5.4 стала первой моделью общего назначения, которая превзошла человека на бенчмарке OSWorld: 75.0% против 72.4% у людей. Модель умеет навигировать по рабочему столу, кликать по интерфейсам, заполнять формы и отправлять письма.
Другие ключевые метрики:
- GDPval (профессиональные задачи в 44 специальностях) — 83.0%
- BrowseComp (агентный веб-поиск) — 89.3% (версия Pro)
- SWE-Bench Pro — 57.7%
- Контекстное окно — 1M токенов
- Tool Search — поиск нужных инструментов на лету, сокращающий расход токенов на 47%
Цена: $2.50/1M входных и $15/1M выходных токенов для базовой версии. GPT-5.4 Pro — $30/$180.
Gemini 3.1 Pro — удвоение reasoning
Google не отстаёт. Выпущенная 19 февраля Gemini 3.1 Pro показала 77.1% на ARC-AGI-2 — более чем вдвое выше предшественника Gemini 3 Pro. Модель особенно сильна в мультимодальных задачах:
- GPQA Diamond — 94.3%
- SWE-Bench Verified — 80.6%
- MMMLU — 92.6%
Контекст — 1M токенов, цена — $2/1M входных и $12/1M выходных токенов. А 3 марта вышла Gemini 3.1 Flash-Lite — бюджетная модель за $0.25/1M входных токенов, идеальная для массовых задач вроде модерации и классификации.
Claude Opus 4.6 — король агентов
Anthropic выпустила Opus 4.6 5 февраля, и за месяц модель утвердилась как стандарт для агентных задач. Ключевые особенности:
- Adaptive thinking — модель сама решает, сколько «думать» над каждым запросом, вместо ручной настройки бюджета токенов
- 1M токенов контекста (бета) с качеством на голову выше конкурентов: 76% на MRCR v2 против 18.5% у Sonnet 4.5
- Agent Teams в Claude Code — несколько агентов работают параллельно над разными частями задачи
- Terminal-Bench 2.0 — 65.4%, SWE-Bench Verified — 80.8%
Цена: $5/1M входных и $25/1M выходных токенов — средний ценовой сегмент между Gemini и GPT-5.4 Pro.
Итого: кого выбрать
| GPT-5.4 | Gemini 3.1 Pro | Claude Opus 4.6 | |
|---|---|---|---|
| Контекст | 1M | 1M | 1M (бета) |
| Сила | Computer use, веб-агенты | Мультимодальность, цена | Агентный кодинг, reasoning |
| Цена (вход/выход) | $2.50/$15 | $2/$12 | $5/$25 |
| SWE-Bench | 57.7% (Pro) | 80.6% | 80.8% |
Контекстные окна выровнялись — у всех по миллиону. Война сместилась в область качества рассуждений, агентных возможностей и экосистемы инструментов. Разработчики от этой конкуренции только выигрывают.