Обзор Claude Code с Opus 4.6 — терминальный агент, который реально работает
Подробный обзор Claude Code на базе Opus 4.6 — Agent Teams, adaptive thinking, 1M контекста. Два месяца в продакшне: плюсы, минусы, честное сравнение.
Claude Code на базе Opus 4.6 — это терминальный AI-агент от Anthropic, который за последние месяцы вырос из CLI-утилиты в полноценную платформу для автономной разработки. С февральским обновлением появились Agent Teams, adaptive thinking и контекст в миллион токенов. Мы использовали его ежедневно два месяца — рассказываем, как оно в реальности.
Что нового в Opus 4.6
Adaptive thinking. Раньше нужно было вручную задавать budget_tokens для extended thinking. Теперь Opus 4.6 сам определяет, сколько «думать» над задачей — простой рефакторинг получает быстрый ответ, архитектурный вопрос — глубокий анализ. На практике это убирает целый слой настроек.
1M токенов контекста (бета). На бенчмарке MRCR v2, который проверяет способность находить факты в огромных промптах, Opus 4.6 набирает 76% — против 18.5% у Sonnet 4.5. Это не инкрементальное улучшение, а принципиально другой уровень работы с большими кодовыми базами.
Context compaction. При длительных сессиях Claude сжимает собственный контекст, сохраняя ключевую информацию. Это позволяет работать часами без потери нити.
Agent Teams — параллельная разработка
Самая мощная новинка. Agent Teams позволяют координировать несколько Claude Code сессий:
- Team Lead — ваша основная сессия, которая распределяет задачи
- Teammates — независимые агенты со своими контекстными окнами и ролями
- Shared task list — файловая доска задач с состояниями и зависимостями
- Mailbox — агенты обмениваются структурированными сообщениями через JSON-файлы
В отличие от субагентов, с каждым teammate можно общаться напрямую. Лучшие сценарии: параллельное исследование разных аспектов проблемы, разработка независимых модулей, дебаг с конкурирующими гипотезами.
Пока что Agent Teams — экспериментальная фича, требующая CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS в настройках. Все агенты работают на Opus 4.6.
Бенчмарки
- SWE-Bench Verified — 80.8%
- Terminal-Bench 2.0 — 65.4%
- OSWorld (computer use) — 72.7%
- GDPval-AA (профессиональные задачи) — лидер среди всех моделей, опережая GPT-5.2 на 144 Elo
Плюсы
- Лучшее качество агентного кодинга — SWE-Bench 80.8%, на уровне Gemini 3.1 Pro и выше GPT-5.4
- Adaptive thinking реально экономит время — не нужно угадывать параметры
- Agent Teams для сложных задач — ничего подобного у конкурентов нет
- MCP-серверы и hooks — интеграция с любыми внешними инструментами
- Работает с любым стеком — терминальный инструмент, не привязан к редактору
- Claude Code Security — автоматический аудит безопасности кодовой базы
Минусы
- Стоимость — Opus 4.6 стоит $5/$25 за миллион токенов, активная работа обходится в $15-30 за рабочий день. Подписка Max за $100-200/мес частично решает проблему
- Скорость — сложные задачи с исследованием десятков файлов занимают 3-5 минут
- Agent Teams пока экспериментальные — бывают гонки состояний и потери координации
- Терминал — нет встроенного визуального diff; расширение для VS Code есть, но это не нативный опыт
- Кривая обучения — нужно научиться формулировать задачи и настраивать CLAUDE.md
Сравнение с конкурентами
Cursor — ближайший конкурент по возможностям. С Cloud Agents и Automations (март 2026) Cursor стал полноценной платформой для автономной разработки. Но он привязан к своему редактору (плюс JetBrains с марта). Claude Code идеален для тех, кто живёт в терминале или хочет интегрировать AI в CI/CD.
GPT-5.4 — OpenAI сделала упор на computer use (75% OSWorld) и tool search. Для задач, связанных с управлением интерфейсами и веб-навигацией, GPT-5.4 сильнее. Для чистого кодинга — Claude Opus 4.6 надёжнее.
Aider — open-source альтернатива с поддержкой разных моделей. Проигрывает Claude Code в экосистеме (нет Agent Teams, MCP, hooks) и качестве агентного поведения.
Вердикт
Claude Code с Opus 4.6 — лучший терминальный AI-агент для разработчиков на март 2026. Agent Teams и adaptive thinking — это не маркетинг, а реальные инструменты, которые меняют рабочий процесс. Высокая стоимость и экспериментальность некоторых фич — значимые ограничения, но для команд с серьёзными кодовыми базами продуктивность окупает вложения.
Оценка: 9/10