Files

¨NW¨ fa68141d47 feat: add pipeline-judge agent and evolution workflow system

- Add pipeline-judge agent for objective fitness scoring
- Update capability-index.yaml with pipeline-judge, evolution config
- Add fitness-evaluation.md workflow for auto-optimization
- Update evolution.md command with /evolve CLI
- Create .kilo/logs/fitness-history.jsonl for metrics logging
- Update AGENTS.md with new workflow state machine
- Add 6 new issues to MILESTONE_ISSUES.md for evolution integration
- Preserve ideas in agent-evolution/ideas/

Pipeline Judge computes fitness = (test_rate*0.5) + (gates*0.25) + (efficiency*0.25)
Auto-triggers prompt-optimizer when fitness < 0.70

2026-04-06 00:23:50 +01:00

18 KiB

Raw Permalink Blame History

Agent Evolution Dashboard - Milestone & Issues

Milestone: Agent Evolution Dashboard

Title: Agent Evolution Dashboard Description: Интерактивная панель для отслеживания эволюции агентной системы APAW с интеграцией Gitea Due Date: 2026-04-19 (2 недели) State: Open

Issues

Issue 1: Рефакторинг из архива в root-директорию

Title: Рефакторинг: перенести agent model research из archive в agent-evolution Labels: refactor, high-priority Milestone: Agent Evolution Dashboard

Описание: Файл archive/apaw_agent_model_research_v3.html содержит ценную информацию о моделях и рекомендациях. Необходимо:

✅ Создать директорию agent-evolution/ в корне проекта
✅ Создать agent-evolution/index.standalone.html с интегрированными данными
✅ Создать agent-evolution/data/agent-versions.json с актуальными данными
✅ Создать agent-evolution/scripts/build-standalone.cjs для генерации
🔄 Удалить archive/apaw_agent_model_research_v3.html после переноса данных

Критерии приёмки:

Все данные из архива интегрированы
Дашборд работает автономно (file://)
Данные актуальны на момент коммита

Issue 2: Интеграция с Gitea для истории изменений

Title: Интеграция Agent Evolution с Gitea API Labels: enhancement, integration, high-priority Milestone: Agent Evolution Dashboard

Описание: Требуется интегрировать дашборд с Gitea для:

Получения истории изменений моделей из issue comments
Парсинга комментариев агентов (формат ## ✅ agent-name completed)
Извлечения метрик производительности (Score, Duration, Files)
Отображения реальной истории в дашборде

Требования:

API endpoint /api/evolution/history для получения истории
Webhook для автоматического обновления при новых комментариях
Кэширование данных локально
Fallback на локальные данные при недоступности Gitea

Критерии приёмки:

История загружается из Gitea при наличии API
Fallback на локальные данные
Webhook обрабатывает issue_comment события
Данные обновляются в реальном времени

Issue 3: Синхронизация с capability-index.yaml и kilo.jsonc

Title: Автоматическая синхронизация эволюции агентов Labels: automation, sync, medium-priority Milestone: Agent Evolution Dashboard

Описание: Создать автоматическую синхронизацию данных эволюции из:

.kilo/agents/*.md - frontmatter с моделями
.kilo/capability-index.yaml - capabilities и routing
.kilo/kilo.jsonc - model assignments
Git history - история изменений
Gitea issue comments - performance metrics

Скрипты:

agent-evolution/scripts/sync-agent-history.ts - основная синхронизация
agent-evolution/scripts/build-standalone.cjs - генерация HTML

NPM Scripts:

"sync:evolution": "bun run agent-evolution/scripts/sync-agent-history.ts && node agent-evolution/scripts/build-standalone.cjs",
"evolution:dashboard": "bunx serve agent-evolution -l 3001",
"evolution:open": "start agent-evolution/index.standalone.html"

Критерии приёмки:

Синхронизация работает корректно
HTML генерируется автоматически
Данные консистентны

Issue 4: Документация и README

Title: Документация Agent Evolution Dashboard Labels: documentation, low-priority Milestone: Agent Evolution Dashboard

Описание: Создать полную документацию:

✅ agent-evolution/README.md - основная документация
🔄 docs/agent-evolution.md - техническая документация
🔄 Инструкция по запуску в AGENTS.md
✅ Schema: agent-evolution/data/agent-versions.schema.json
✅ Skills: .kilo/skills/evolution-sync/SKILL.md
✅ Rules: .kilo/rules/evolutionary-sync.md

Критерии приёмки:

README покрывает все сценарии использования
Техническая документация описывает API
Есть примеры кода

Issue 5: Docker контейнер для дашборда

Title: Docker-изация Agent Evolution Dashboard Labels: docker, deployment, low-priority Milestone: Agent Evolution Dashboard

Описание: Упаковать дашборд в Docker для простого деплоя:

Файлы:

✅ agent-evolution/Dockerfile
✅ docker-compose.evolution.yml
✅ agent-evolution/docker-run.sh (Linux/macOS)
✅ agent-evolution/docker-run.bat (Windows)

Команды:

# Linux/macOS
bash agent-evolution/docker-run.sh restart

# Windows
agent-evolution\docker-run.bat restart

# Docker Compose
docker-compose -f docker-compose.evolution.yml up -d

Критерии приёмки:

Docker образ собирается
Контейнер запускается на порту 3001
Данные монтируются корректно

NEW: Pipeline Fitness & Auto-Evolution Issues

Issue 6: Pipeline Judge Agent — Объективная оценка fitness

Title: Создать pipeline-judge агента для объективной оценки workflow Labels: agent, fitness, high-priority Milestone: Agent Evolution Dashboard

Описание: Создать агента pipeline-judge, который объективно оценивает качество выполненного workflow на основе метрик, а не субъективных оценок.

Отличие от evaluator:

evaluator — субъективные оценки 1-10 на основе наблюдений
pipeline-judge — объективные метрики: тесты, токены, время, quality gates

Файлы:

.kilo/agents/pipeline-judge.md — ✅ создан

Fitness Formula:

fitness = (test_pass_rate × 0.50) + (quality_gates_rate × 0.25) + (efficiency_score × 0.25)

Метрики:

Test pass rate: passed/total тестов
Quality gates: build, lint, typecheck, tests_clean, coverage
Efficiency: токены и время относительно бюджетов

Критерии приёмки:

Агент создан в .kilo/agents/pipeline-judge.md
Добавлен в capability-index.yaml
Интегрирован в workflow после завершения пайплайна
Логирует результаты в .kilo/logs/fitness-history.jsonl
Триггерит prompt-optimizer при fitness < 0.70

Issue 7: Fitness History Logging — накопление метрик

Title: Создать систему логирования fitness-метрик Labels: logging, metrics, high-priority Milestone: Agent Evolution Dashboard

Описание: Создать систему накопления fitness-метрик для отслеживания эволюции пайплайна во времени.

Формат лога (.kilo/logs/fitness-history.jsonl):

{"ts":"2026-04-06T00:00:00Z","issue":42,"workflow":"feature","fitness":0.82,"tokens":38400,"time_ms":245000,"tests_passed":45,"tests_total":47}
{"ts":"2026-04-06T01:30:00Z","issue":43,"workflow":"bugfix","fitness":0.91,"tokens":12000,"time_ms":85000,"tests_passed":47,"tests_total":47}

Действия:

✅ Создать директорию .kilo/logs/ если не существует
🔄 Создать .kilo/logs/fitness-history.jsonl
🔄 Обновить pipeline-judge.md для записи в лог
🔄 Создать скрипт agent-evolution/scripts/sync-fitness-history.ts

Критерии приёмки:

Файл .kilo/logs/fitness-history.jsonl создан
pipeline-judge пишет в лог после каждого workflow
Скрипт синхронизации интегрирован в sync:evolution
Дашборд отображает фитнесс-тренды

Issue 8: Evolution Workflow — автоматическое самоулучшение

Title: Реализовать эволюционный workflow для автоматической оптимизации Labels: workflow, automation, high-priority Milestone: Agent Evolution Dashboard

Описание: Реализовать непрерывный цикл самоулучшения пайплайна на основе фитнесс-метрик.

Workflow:

[Workflow Completes]
       ↓
[pipeline-judge] → fitness score
       ↓
┌───────────────────────────┐
│ fitness >= 0.85           │──→ Log + done
│ fitness 0.70-0.84         │──→ [prompt-optimizer] minor tuning
│ fitness < 0.70            │──→ [prompt-optimizer] major rewrite
│ fitness < 0.50            │──→ [agent-architect] redesign
└───────────────────────────┘
       ↓
[Re-run workflow with new prompts]
       ↓
[pipeline-judge] again
       ↓
[Compare before/after]
       ↓
[Commit or revert]

Файлы:

.kilo/workflows/fitness-evaluation.md — документация workflow
Обновить capability-index.yaml — добавить iteration_loops.evolution

Конфигурация:

evolution:
  enabled: true
  auto_trigger: true
  fitness_threshold: 0.70
  max_evolution_attempts: 3
  fitness_history: .kilo/logs/fitness-history.jsonl
  budgets:
    feature: {tokens: 50000, time_s: 300}
    bugfix: {tokens: 20000, time_s: 120}
    refactor: {tokens: 40000, time_s: 240}
    security: {tokens: 30000, time_s: 180}

Критерии приёмки:

Workflow определён в .kilo/workflows/
Интегрирован в основной pipeline
Автоматически триггерит prompt-optimizer
Сравнивает before/after fitness
Коммитит только улучшения

Issue 9: /evolve Command — ручной запуск эволюции

Title: Обновить команду /evolve для работы с fitness Labels: command, cli, medium-priority Milestone: Agent Evolution Dashboard

Описание: Расширить существующую команду /evolution (логирование моделей) до полноценной /evolve команды с анализом fitness.

Текущий /evolution:

Логирует изменения моделей
Генерирует отчёты

Новый /evolve:

/evolve                     # evolve last completed workflow
/evolve --issue 42          # evolve workflow for issue #42
/evolve --agent planner     # focus evolution on one agent
/evolve --dry-run           # show what would change without applying
/evolve --history           # print fitness trend chart

Execution:

Judge: Task(subagent_type: "pipeline-judge") → fitness report
Decide: threshold-based routing
Re-test: тот же workflow с обновлёнными промптами
Log: append to fitness-history.jsonl

Файлы:

Обновить .kilo/commands/evolution.md — добавить fitness логику
Создать алиас /evolve → /evolution --fitness

Критерии приёмки:

Команда /evolve работает с fitness
Опции --issue, --agent, --dry-run, --history
Интегрирована с pipeline-judge
Отображает тренд fitness

Issue 10: Update Capability Index — интеграция pipeline-judge

Title: Добавить pipeline-judge и evolution конфигурацию в capability-index.yaml Labels: config, integration, high-priority Milestone: Agent Evolution Dashboard

Описание: Обновить capability-index.yaml для поддержки нового эволюционного workflow.

Добавить:

agents:
  pipeline-judge:
    capabilities:
      - test_execution
      - fitness_scoring
      - metric_collection
      - bottleneck_detection
    receives:
      - completed_workflow
      - pipeline_logs
    produces:
      - fitness_report
      - bottleneck_analysis
      - improvement_triggers
    forbidden:
      - code_writing
      - code_changes
      - prompt_changes
    model: ollama-cloud/nemotron-3-super
    mode: subagent

capability_routing:
  fitness_scoring: pipeline-judge
  test_execution: pipeline-judge
  bottleneck_detection: pipeline-judge

iteration_loops:
  evolution:
    evaluator: pipeline-judge
    optimizer: prompt-optimizer
    max_iterations: 3
    convergence: fitness_above_0.85

workflow_states:
  evaluated: [evolving, completed]
  evolving: [evaluated]

evolution:
  enabled: true
  auto_trigger: true
  fitness_threshold: 0.70
  max_evolution_attempts: 3
  fitness_history: .kilo/logs/fitness-history.jsonl
  budgets:
    feature: {tokens: 50000, time_s: 300}
    bugfix: {tokens: 20000, time_s: 120}
    refactor: {tokens: 40000, time_s: 240}
    security: {tokens: 30000, time_s: 180}

Критерии приёмки:

pipeline-judge добавлен в секцию agents
capability_routing обновлён
iteration_loops.evolution добавлен
workflow_states обновлены
Секция evolution конфигурирована
YAML валиден

Issue 11: Dashboard Evolution Tab — визуализация fitness

Title: Добавить вкладку Fitness Evolution в дашборд Labels: dashboard, visualization, medium-priority Milestone: Agent Evolution Dashboard

Описание: Расширить дашборд для отображения фитнесс-метрик и трендов эволюции.

Новая вкладка "Evolution":

Fitness Trend Chart — график fitness по времени
Workflow Comparison — сравнение fitness разных workflow типов
Agent Bottlenecks — агенты с наибольшим потреблением токенов
Optimization History — история оптимизаций промптов

Data Source:

.kilo/logs/fitness-history.jsonl
.kilo/logs/efficiency_score.json

UI Components:

// Fitness Trend Chart
// X-axis: timestamp
// Y-axis: fitness score (0.0 - 1.0)
// Series: issues by type (feature, bugfix, refactor)

// Agent Heatmap
// Rows: agents
// Cols: metrics (tokens, time, contribution)
// Color: intensity

Критерии приёмки:

Вкладка "Evolution" добавлена в дашборд
График fitness-trend работает
Agent bottlenecks отображаются
Данные загружаются из fitness-history.jsonl

Статус направления

Текущий статус: ACTIVE — новые ишьюсы для интеграции fitness-системы

Приоритеты на спринт:

Priority	Issue	Effort	Impact
P0	#6 Pipeline Judge Agent	Low	High
P0	#7 Fitness History Logging	Low	High
P0	#10 Capability Index Update	Low	High
P1	#8 Evolution Workflow	Medium	High
P1	#9 /evolve Command	Medium	Medium
P2	#11 Dashboard Evolution Tab	Medium	Medium

Зависимости:

#6 (pipeline-judge) ──► #7 (fitness-history) ──► #11 (dashboard)
        │
        └──► #10 (capability-index)
                        │
        ┌───────────────┘
        ▼
#8 (evolution-workflow) ──► #9 (evolve-command)

Рекомендуемый порядок выполнения:

Issue #6: Создать pipeline-judge.md ✅ DONE
Issue #10: Обновить capability-index.yaml
Issue #7: Создать fitness-history.jsonl и интегрировать логирование
Issue #8: Создать workflow fitness-evaluation.md
Issue #9: Обновить команду /evolution
Issue #11: Добавить вкладку в дашборд

Quick Links

Dashboard: agent-evolution/index.standalone.html
Data: agent-evolution/data/agent-versions.json
Build Script: agent-evolution/scripts/build-standalone.cjs
Docker: docker-compose -f docker-compose.evolution.yml up -d
NPM: bun run sync:evolution
NEW Pipeline Judge: .kilo/agents/pipeline-judge.md
NEW Fitness Log: .kilo/logs/fitness-history.jsonl

Changelog

2026-04-06

✅ Created pipeline-judge.md agent
✅ Updated MILESTONE_ISSUES.md with 6 new issues (#6-#11)
✅ Added dependency graph and priority matrix
✅ Changed status from PAUSED to ACTIVE

18 KiB Raw Permalink Blame History Unescape Escape

Agent Evolution Dashboard - Milestone & Issues

Milestone: Agent Evolution Dashboard

Issues

Issue 1: Рефакторинг из архива в root-директорию

Issue 2: Интеграция с Gitea для истории изменений

Issue 3: Синхронизация с capability-index.yaml и kilo.jsonc

Issue 4: Документация и README

Issue 5: Docker контейнер для дашборда

NEW: Pipeline Fitness & Auto-Evolution Issues

Issue 6: Pipeline Judge Agent — Объективная оценка fitness

Issue 7: Fitness History Logging — накопление метрик

Issue 8: Evolution Workflow — автоматическое самоулучшение

Issue 9: /evolve Command — ручной запуск эволюции

Issue 10: Update Capability Index — интеграция pipeline-judge

Issue 11: Dashboard Evolution Tab — визуализация fitness

Статус направления

Quick Links

Changelog

2026-04-06

18 KiB

Raw Permalink Blame History