Война моделей: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6 — кто лидер в марте 2026

Март 2026 года запомнится как месяц, когда три гиганта AI-индустрии выкатили обновления почти одновременно. 5 марта OpenAI представила GPT-5.4 с нативным управлением компьютером, Google продолжает расширять линейку Gemini 3.1, а Claude Opus 4.6 от Anthropic, вышедший в феврале, закрепился как лидер в агентном программировании. Разбираемся, кто и в чём сильнее.

GPT-5.4 — компьютер теперь управляется сам

OpenAI 5 марта выпустила сразу три модели: GPT-5.3 Instant для быстрых задач, GPT-5.4 Thinking для сложных рабочих процессов и GPT-5.4 Pro для максимально требовательных сценариев.

Главная новинка — нативное управление компьютером. GPT-5.4 стала первой моделью общего назначения, которая превзошла человека на бенчмарке OSWorld: 75.0% против 72.4% у людей. Модель умеет навигировать по рабочему столу, кликать по интерфейсам, заполнять формы и отправлять письма.

Другие ключевые метрики:

GDPval (профессиональные задачи в 44 специальностях) — 83.0%
BrowseComp (агентный веб-поиск) — 89.3% (версия Pro)
SWE-Bench Pro — 57.7%
Контекстное окно — 1M токенов
Tool Search — поиск нужных инструментов на лету, сокращающий расход токенов на 47%

Цена: $2.50/1M входных и $15/1M выходных токенов для базовой версии. GPT-5.4 Pro — $30/$180.

Gemini 3.1 Pro — удвоение reasoning

Google не отстаёт. Выпущенная 19 февраля Gemini 3.1 Pro показала 77.1% на ARC-AGI-2 — более чем вдвое выше предшественника Gemini 3 Pro. Модель особенно сильна в мультимодальных задачах:

GPQA Diamond — 94.3%
SWE-Bench Verified — 80.6%
MMMLU — 92.6%

Контекст — 1M токенов, цена — $2/1M входных и $12/1M выходных токенов. А 3 марта вышла Gemini 3.1 Flash-Lite — бюджетная модель за $0.25/1M входных токенов, идеальная для массовых задач вроде модерации и классификации.

Claude Opus 4.6 — король агентов

Anthropic выпустила Opus 4.6 5 февраля, и за месяц модель утвердилась как стандарт для агентных задач. Ключевые особенности:

Adaptive thinking — модель сама решает, сколько «думать» над каждым запросом, вместо ручной настройки бюджета токенов
1M токенов контекста (бета) с качеством на голову выше конкурентов: 76% на MRCR v2 против 18.5% у Sonnet 4.5
Agent Teams в Claude Code — несколько агентов работают параллельно над разными частями задачи
Terminal-Bench 2.0 — 65.4%, SWE-Bench Verified — 80.8%

Цена: $5/1M входных и $25/1M выходных токенов — средний ценовой сегмент между Gemini и GPT-5.4 Pro.

Итого: кого выбрать

	GPT-5.4	Gemini 3.1 Pro	Claude Opus 4.6
Контекст	1M	1M	1M (бета)
Сила	Computer use, веб-агенты	Мультимодальность, цена	Агентный кодинг, reasoning
Цена (вход/выход)	$2.50/$15	$2/$12	$5/$25
SWE-Bench	57.7% (Pro)	80.6%	80.8%

Контекстные окна выровнялись — у всех по миллиону. Война сместилась в область качества рассуждений, агентных возможностей и экосистемы инструментов. Разработчики от этой конкуренции только выигрывают.

GPT-5.4 — компьютер теперь управляется сам

Gemini 3.1 Pro — удвоение reasoning

Claude Opus 4.6 — король агентов

Итого: кого выбрать

Читайте также