Milestones - APAW - Gitea: Git with a cup of tea

Real-Fit Analysis Engine

0%

End-to-end evaluation pipeline that measures LLM fitness per agent role, not just generic benchmark scores.

Unlike current fit_score (which is a static model IF score), real-fit scores should reflect:

How well a model performs on actual agent-specific tasks
Prompt generation from .kilo/agents/*.md frontmatter
Multi-model execution via Ollama API
Rubric-based evaluation per agent role
Cross-model judge scoring
Storage in real-fit-results.json
Dashboard with cell drill-down

Deliverable: A complete evaluation pipeline integrated into the agent evolution workflow.

[Evolution] APAW Model Optimization May 2026

0%

Agent Model Evolution

Research date: 2026-05-24

Goals

Migrate 13 agents to higher-performing Ollama Cloud models
Fix 2 agents on non-Ollama-Cloud models (qwen3.6-plus)
Fill 7 data gaps (missing SWE-bench scores)
A/B test idle models: qwen3.5-122b, gemma4-27b, deepseek-v4-flash

Metrics

38 total agents
15 benchmarked models
6 models assigned, 9 models idle (wasted potential)
8 agents on unverified models (no SWE score)

Completed Migrations

Agent	From	To	Priority
prompt-optimizer	qwen3.6-plus	qwen3.5-122b	CRITICAL
memory-manager	qwen3.6-plus	deepseek-v4-pro-max	CRITICAL
system-analyst	glm-5.1	deepseek-v4-pro-max	HIGH
evaluator	glm-5.1	qwen3.5-122b	HIGH
pipeline-judge	glm-5.1	kimi-k2.6	HIGH
workflow-architect	glm-5.1	qwen3.5-122b	HIGH
markdown-validator	deepseek-v4-pro-max	nemotron-3-nano	MEDIUM
release-manager	glm-5.1	kimi-k2.6	MEDIUM
capability-analyst	glm-5.1	deepseek-v4-pro-max	MEDIUM
browser-automation	qwen3-coder	deepseek-v4-flash	MEDIUM
history-miner	nemotron-3-super	qwen3.5-122b	LOW

Open Tasks

A/B benchmark: qwen3.5-122b vs glm-5.1 for evaluator
A/B benchmark: gemma4-27b vs qwen3-coder for browser-automation
A/B benchmark: deepseek-v4-flash vs qwen3-coder for browser-automation
Instrument pipeline-judge wall-clock latency tracking
Collect agent-executions.jsonl performance logs

[Контроль качества] Остановить трэшинг, единый источник правды

0%

Цель

Прекратить хаос миграции моделей (4 дня, ~20 коммитов, противоречивые переназначения) и создать контролируемый, воспроизводимый процесс эволюции агентской системы.

Проблемы

Модельный трэшинг: 3 исследования дали противоречивые результаты за 72 часа
51% коммитов — фиксы самопорожденных проблем
7 файлов требуют ручного редактирования при одном изменении модели
Дашборд поглощает ресурсы, не принося пользы ядру
Захардкоженный API-ключ в production-скрипте

Метрики успеха

0 противоречивых миграций за спринт
1 коммит = 1 атомарная миграция (все производные файлы авто-сгенерированы)
100% агентов назначены по реальным pipeline-данным (fitness-history.jsonl)
Дашборд заморожен (0 feature-коммитов)
workflow-cross-checker блокирует коммит при конфигурационном дрейфе

Labels Milestones