• 1 Open
    0 Closed
    Updated 2026-05-27 17:28:05 +00:00
    No due date

    End-to-end evaluation pipeline that measures LLM fitness per agent role, not just generic benchmark scores.

    Unlike current fit_score (which is a static model IF score), real-fit scores should reflect:

    • How well a model performs on actual agent-specific tasks
    • Prompt generation from .kilo/agents/*.md frontmatter
    • Multi-model execution via Ollama API
    • Rubric-based evaluation per agent role
    • Cross-model judge scoring
    • Storage in real-fit-results.json
    • Dashboard with cell drill-down

    Deliverable: A complete evaluation pipeline integrated into the agent evolution workflow.

  • 5 Open
    0 Closed
    Updated 2026-05-25 14:08:33 +00:00
    No due date

    Agent Model Evolution

    Research date: 2026-05-24

    Goals

    • Migrate 13 agents to higher-performing Ollama Cloud models
    • Fix 2 agents on non-Ollama-Cloud models (qwen3.6-plus)
    • Fill 7 data gaps (missing SWE-bench scores)
    • A/B test idle models: qwen3.5-122b, gemma4-27b, deepseek-v4-flash

    Metrics

    • 38 total agents
    • 15 benchmarked models
    • 6 models assigned, 9 models idle (wasted potential)
    • 8 agents on unverified models (no SWE score)

    Completed Migrations

    Agent From To Priority
    prompt-optimizer qwen3.6-plus qwen3.5-122b CRITICAL
    memory-manager qwen3.6-plus deepseek-v4-pro-max CRITICAL
    system-analyst glm-5.1 deepseek-v4-pro-max HIGH
    evaluator glm-5.1 qwen3.5-122b HIGH
    pipeline-judge glm-5.1 kimi-k2.6 HIGH
    workflow-architect glm-5.1 qwen3.5-122b HIGH
    markdown-validator deepseek-v4-pro-max nemotron-3-nano MEDIUM
    release-manager glm-5.1 kimi-k2.6 MEDIUM
    capability-analyst glm-5.1 deepseek-v4-pro-max MEDIUM
    browser-automation qwen3-coder deepseek-v4-flash MEDIUM
    history-miner nemotron-3-super qwen3.5-122b LOW

    Open Tasks

    • A/B benchmark: qwen3.5-122b vs glm-5.1 for evaluator
    • A/B benchmark: gemma4-27b vs qwen3-coder for browser-automation
    • A/B benchmark: deepseek-v4-flash vs qwen3-coder for browser-automation
    • Instrument pipeline-judge wall-clock latency tracking
    • Collect agent-executions.jsonl performance logs
  • 6 Open
    0 Closed
    Updated 2026-05-28 13:39:28 +00:00
    2026-06-11

    Цель

    Прекратить хаос миграции моделей (4 дня, ~20 коммитов, противоречивые переназначения) и создать контролируемый, воспроизводимый процесс эволюции агентской системы.

    Проблемы

    • Модельный трэшинг: 3 исследования дали противоречивые результаты за 72 часа
    • 51% коммитов — фиксы самопорожденных проблем
    • 7 файлов требуют ручного редактирования при одном изменении модели
    • Дашборд поглощает ресурсы, не принося пользы ядру
    • Захардкоженный API-ключ в production-скрипте

    Метрики успеха

    • 0 противоречивых миграций за спринт
    • 1 коммит = 1 атомарная миграция (все производные файлы авто-сгенерированы)
    • 100% агентов назначены по реальным pipeline-данным (fitness-history.jsonl)
    • Дашборд заморожен (0 feature-коммитов)
    • workflow-cross-checker блокирует коммит при конфигурационном дрейфе