AI Warrior
Война моделей: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6 — кто лидер в марте 2026
Новости8 марта 2026 г.·3 min read

Война моделей: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6 — кто лидер в марте 2026

За одну неделю вышли GPT-5.4 и Gemini 3.1 Flash-Lite, а Claude Opus 4.6 продолжает доминировать в агентных задачах. Разбираем, кто и в чём сильнее.

Март 2026 года запомнится как месяц, когда три гиганта AI-индустрии выкатили обновления почти одновременно. 5 марта OpenAI представила GPT-5.4 с нативным управлением компьютером, Google продолжает расширять линейку Gemini 3.1, а Claude Opus 4.6 от Anthropic, вышедший в феврале, закрепился как лидер в агентном программировании. Разбираемся, кто и в чём сильнее.

GPT-5.4 — компьютер теперь управляется сам

OpenAI 5 марта выпустила сразу три модели: GPT-5.3 Instant для быстрых задач, GPT-5.4 Thinking для сложных рабочих процессов и GPT-5.4 Pro для максимально требовательных сценариев.

Главная новинка — нативное управление компьютером. GPT-5.4 стала первой моделью общего назначения, которая превзошла человека на бенчмарке OSWorld: 75.0% против 72.4% у людей. Модель умеет навигировать по рабочему столу, кликать по интерфейсам, заполнять формы и отправлять письма.

Другие ключевые метрики:

  • GDPval (профессиональные задачи в 44 специальностях) — 83.0%
  • BrowseComp (агентный веб-поиск) — 89.3% (версия Pro)
  • SWE-Bench Pro — 57.7%
  • Контекстное окно — 1M токенов
  • Tool Search — поиск нужных инструментов на лету, сокращающий расход токенов на 47%

Цена: $2.50/1M входных и $15/1M выходных токенов для базовой версии. GPT-5.4 Pro — $30/$180.

Gemini 3.1 Pro — удвоение reasoning

Google не отстаёт. Выпущенная 19 февраля Gemini 3.1 Pro показала 77.1% на ARC-AGI-2 — более чем вдвое выше предшественника Gemini 3 Pro. Модель особенно сильна в мультимодальных задачах:

  • GPQA Diamond — 94.3%
  • SWE-Bench Verified — 80.6%
  • MMMLU — 92.6%

Контекст — 1M токенов, цена — $2/1M входных и $12/1M выходных токенов. А 3 марта вышла Gemini 3.1 Flash-Lite — бюджетная модель за $0.25/1M входных токенов, идеальная для массовых задач вроде модерации и классификации.

Claude Opus 4.6 — король агентов

Anthropic выпустила Opus 4.6 5 февраля, и за месяц модель утвердилась как стандарт для агентных задач. Ключевые особенности:

  • Adaptive thinking — модель сама решает, сколько «думать» над каждым запросом, вместо ручной настройки бюджета токенов
  • 1M токенов контекста (бета) с качеством на голову выше конкурентов: 76% на MRCR v2 против 18.5% у Sonnet 4.5
  • Agent Teams в Claude Code — несколько агентов работают параллельно над разными частями задачи
  • Terminal-Bench 2.0 — 65.4%, SWE-Bench Verified — 80.8%

Цена: $5/1M входных и $25/1M выходных токенов — средний ценовой сегмент между Gemini и GPT-5.4 Pro.

Итого: кого выбрать

GPT-5.4Gemini 3.1 ProClaude Opus 4.6
Контекст1M1M1M (бета)
СилаComputer use, веб-агентыМультимодальность, ценаАгентный кодинг, reasoning
Цена (вход/выход)$2.50/$15$2/$12$5/$25
SWE-Bench57.7% (Pro)80.6%80.8%

Контекстные окна выровнялись — у всех по миллиону. Война сместилась в область качества рассуждений, агентных возможностей и экосистемы инструментов. Разработчики от этой конкуренции только выигрывают.

Читайте также