APAW Agent Model Research v2

capability-index.yaml · Ollama Cloud + OpenRouter · GLM-5.1 + Qwen 3.6+ · April 2026 · April 2026
Агентов
36
32 custom + 4 built-in
Моделей сейчас
6
Coder(9) GLM-5.1(11) K2.6(4)
Ollama Cloud
20+
доступно бесплатно
Groq + OpenRouter
16+
free tier моделей
Рекомендаций
11
8/8 applied ✅

Ключевые находки v3 (после коммита caf77f53c8)

Ваш агент уже применил 11 из моих рекомендаций (коммит от 05:21). Но я обнаружил что до применения некоторые агенты были на других моделях чем я предполагал:

  • ⚠ Откат Qwen 3.6 Plus — security-auditor, prompt-optimizer, product-owner и markdown-validator до коммита были на openrouter/qwen3.6-plus:free и deepseek-v3.2, но мои рекомендации их заменили на Ollama-модели. Это снижает разнообразие провайдеров!
  • ✅ 11 замен уже применены — Nemotron 3 Super теперь на 7 ролях, GLM-5 расширен, Qwen3-Coder на Go, markdown-validator
  • 🔴 Осталось 3 агента на gpt-oss:120b — requirement-refiner, capability-analyst, agent-architect. Всем им нужен Nemotron 3 Super
  • Новая стратегия: гибридный мультипровайдер — OpenRouter (Qwen 3.6 Plus FREE, 1M ctx) + Groq (gpt-oss 500 t/s) + Ollama (основной). Диверсификация снижает зависимость
  • Qwen 3.6 Plus стоит вернуть для prompt-optimizer (Terminal-Bench 61.6% > Claude!) и product-owner (1M контекст для backlog)
  • History-miner → Nemotron 3 Super — самый большой оставшийся прирост: 88 vs 78 (GLM-5). RULER@1M критичен для git history
  • ⚠ Prompt Adherence (IF) — новый фактор! Nemotron 3 Super имеет IF=78 (ниже GLM-5=90, Qwen3.5=92, Qwen3.6+=91). Для ролей с жёстким промптом (evaluator, security-auditor, orchestrator) это снижает эффективность. Qwen 3.6 Plus и GLM-5 лучше следуют инструкциям

Текущая конфигурация

capability-index.yaml
АгентМодельПровайдерКатегорияСоответствиеСтатус

Groq Free Plan — доступные модели

бесплатно · LPU inference
gpt-oss-20b
1200 t/s
30 RPM · 1K RPD · 200K TPD

Анализ лимитов Groq Free для агентского pipeline

При 26 агентах в pipeline, каждый агент делает 5–20 вызовов на задачу. Типичный issue проходит через 8–12 агентов = ~100–200 вызовов. С лимитом 1K RPD на модель:

  • Groq Compound: всего 250 RPD, но 70K TPM — для одноразовых тяжёлых аналитических задач

Все модели Groq Free Tier

Model IDRPMRPDTPMTPDСкоростьПрименение в APAW

Все доступные модели

Ollama Cloud + Groq + OpenRouter Free
Матрица «Агент × Модель»: оценка совместимости (с учётом Prompt Adherence)
0–100 · Взвешенная оценка = 60% бенчмарк роли + 25% Instruction Following + 15% скорость/контекст · ★ = лучший · обведено = текущий · ← 11 моделей · 🟢L 🟡M 🔴H = Reasoning Effort →

Рекомендации

4 замены (2 BROKEN) + 7 подтверждений 06.04.2026
0 из 11 выбрано

Совокупный анализ профита

если применить все рекомендации
Средний прирост
+12
пунктов по матрице
Применено
8/8
все рекомендации ✅
Qwen 3.6+
0
полностью на Ollama!
GLM-5.1
12
10 custom + 2 built-in
Прирост по категориям: до → после

Детальный анализ прироста

APAW Pipeline vs ТОП закрытых моделей (апрель 2026)

Сравнение лучших моделей в вашем pipeline с лидерами рынка по ключевым бенчмаркам. 🟢 = APAW обгоняет, 🟡 = на уровне (±3%), 🔴 = отстаёт

* SWE-V = SWE-Bench Verified, SWE-P = SWE-Bench Pro, T-Bench = Terminal-Bench 2.0, LCB = LiveCodeBench, GPQA = GPQA Diamond
Данные: swebench.com, marc0.dev, tokenmix.ai, ollama.com — апрель 2026. Стоимость: примерная за 1M input tokens.