End-to-end evaluation pipeline that measures LLM fitness per agent role, not just generic benchmark scores.
Unlike current fit_score (which is a static model IF score), real-fit scores should reflect:
- How well a model performs on actual agent-specific tasks
- Prompt generation from .kilo/agents/*.md frontmatter
- Multi-model execution via Ollama API
- Rubric-based evaluation per agent role
- Cross-model judge scoring
- Storage in real-fit-results.json
- Dashboard with cell drill-down
Deliverable: A complete evaluation pipeline integrated into the agent evolution workflow.
Agent Model Evolution
Research date: 2026-05-24
Goals
- Migrate 13 agents to higher-performing Ollama Cloud models
- Fix 2 agents on non-Ollama-Cloud models (qwen3.6-plus)
- Fill 7 data gaps (missing SWE-bench scores)
- A/B test idle models: qwen3.5-122b, gemma4-27b, deepseek-v4-flash
Metrics
- 38 total agents
- 15 benchmarked models
- 6 models assigned, 9 models idle (wasted potential)
- 8 agents on unverified models (no SWE score)
Completed Migrations
| Agent | From | To | Priority |
|---|---|---|---|
| prompt-optimizer | qwen3.6-plus | qwen3.5-122b | CRITICAL |
| memory-manager | qwen3.6-plus | deepseek-v4-pro-max | CRITICAL |
| system-analyst | glm-5.1 | deepseek-v4-pro-max | HIGH |
| evaluator | glm-5.1 | qwen3.5-122b | HIGH |
| pipeline-judge | glm-5.1 | kimi-k2.6 | HIGH |
| workflow-architect | glm-5.1 | qwen3.5-122b | HIGH |
| markdown-validator | deepseek-v4-pro-max | nemotron-3-nano | MEDIUM |
| release-manager | glm-5.1 | kimi-k2.6 | MEDIUM |
| capability-analyst | glm-5.1 | deepseek-v4-pro-max | MEDIUM |
| browser-automation | qwen3-coder | deepseek-v4-flash | MEDIUM |
| history-miner | nemotron-3-super | qwen3.5-122b | LOW |
Open Tasks
- A/B benchmark: qwen3.5-122b vs glm-5.1 for evaluator
- A/B benchmark: gemma4-27b vs qwen3-coder for browser-automation
- A/B benchmark: deepseek-v4-flash vs qwen3-coder for browser-automation
- Instrument pipeline-judge wall-clock latency tracking
- Collect agent-executions.jsonl performance logs
Цель
Прекратить хаос миграции моделей (4 дня, ~20 коммитов, противоречивые переназначения) и создать контролируемый, воспроизводимый процесс эволюции агентской системы.
Проблемы
- Модельный трэшинг: 3 исследования дали противоречивые результаты за 72 часа
- 51% коммитов — фиксы самопорожденных проблем
- 7 файлов требуют ручного редактирования при одном изменении модели
- Дашборд поглощает ресурсы, не принося пользы ядру
- Захардкоженный API-ключ в production-скрипте
Метрики успеха
- 0 противоречивых миграций за спринт
- 1 коммит = 1 атомарная миграция (все производные файлы авто-сгенерированы)
- 100% агентов назначены по реальным pipeline-данным (fitness-history.jsonl)
- Дашборд заморожен (0 feature-коммитов)
- workflow-cross-checker блокирует коммит при конфигурационном дрейфе