APAW KiloCode — Agent Model Research v3 (Ollama + Groq + OpenRouter)

Агентов

32 custom + 4 built-in

Моделей сейчас

Coder(9) GLM-5.1(11) K2.6(4)

Ollama Cloud

20+

доступно бесплатно

Groq + OpenRouter

16+

free tier моделей

Рекомендаций

8/8 applied ✅

Ключевые находки v3 (после коммита caf77f53c8)

Ваш агент уже применил 11 из моих рекомендаций (коммит от 05:21). Но я обнаружил что до применения некоторые агенты были на других моделях чем я предполагал:

⚠ Откат Qwen 3.6 Plus — security-auditor, prompt-optimizer, product-owner и markdown-validator до коммита были на openrouter/qwen3.6-plus:free и deepseek-v3.2, но мои рекомендации их заменили на Ollama-модели. Это снижает разнообразие провайдеров!
✅ 11 замен уже применены — Nemotron 3 Super теперь на 7 ролях, GLM-5 расширен, Qwen3-Coder на Go, markdown-validator
🔴 Осталось 3 агента на gpt-oss:120b — requirement-refiner, capability-analyst, agent-architect. Всем им нужен Nemotron 3 Super
Новая стратегия: гибридный мультипровайдер — OpenRouter (Qwen 3.6 Plus FREE, 1M ctx) + Groq (gpt-oss 500 t/s) + Ollama (основной). Диверсификация снижает зависимость
Qwen 3.6 Plus стоит вернуть для prompt-optimizer (Terminal-Bench 61.6% > Claude!) и product-owner (1M контекст для backlog)
History-miner → Nemotron 3 Super — самый большой оставшийся прирост: 88 vs 78 (GLM-5). RULER@1M критичен для git history
⚠ Prompt Adherence (IF) — новый фактор! Nemotron 3 Super имеет IF=78 (ниже GLM-5=90, Qwen3.5=92, Qwen3.6+=91). Для ролей с жёстким промптом (evaluator, security-auditor, orchestrator) это снижает эффективность. Qwen 3.6 Plus и GLM-5 лучше следуют инструкциям

Текущая конфигурация

capability-index.yaml

Агент	Модель	Провайдер	Категория	Соответствие	Статус

Groq Free Plan — доступные модели

бесплатно · LPU inference

gpt-oss-20b

1200 t/s

30 RPM · 1K RPD · 200K TPD

Анализ лимитов Groq Free для агентского pipeline

При 26 агентах в pipeline, каждый агент делает 5–20 вызовов на задачу. Типичный issue проходит через 8–12 агентов = ~100–200 вызовов. С лимитом 1K RPD на модель:

Groq Compound: всего 250 RPD, но 70K TPM — для одноразовых тяжёлых аналитических задач

Все модели Groq Free Tier

Model ID	RPM	RPD	TPM	TPD	Скорость	Применение в APAW

Все доступные модели

Ollama Cloud + Groq + OpenRouter Free

Матрица «Агент × Модель»: оценка совместимости (с учётом Prompt Adherence)

0–100 · Взвешенная оценка = 60% бенчмарк роли + 25% Instruction Following + 15% скорость/контекст · ★ = лучший · обведено = текущий · ← 11 моделей · 🟢L 🟡M 🔴H = Reasoning Effort →

Совокупный анализ профита

если применить все рекомендации

Средний прирост

+12

пунктов по матрице

Применено

8/8

все рекомендации ✅

Qwen 3.6+

полностью на Ollama!

GLM-5.1

10 custom + 2 built-in

Прирост по категориям: до → после

Детальный анализ прироста

APAW Pipeline vs ТОП закрытых моделей (апрель 2026)

Сравнение лучших моделей в вашем pipeline с лидерами рынка по ключевым бенчмаркам. 🟢 = APAW обгоняет, 🟡 = на уровне (±3%), 🔴 = отстаёт

* SWE-V = SWE-Bench Verified, SWE-P = SWE-Bench Pro, T-Bench = Terminal-Bench 2.0, LCB = LiveCodeBench, GPQA = GPQA Diamond
Данные: swebench.com, marc0.dev, tokenmix.ai, ollama.com — апрель 2026. Стоимость: примерная за 1M input tokens.

APAW Agent Model Research v2