[Высокий] Перейти на эмпирическое назначение моделей — fitness-history.jsonl #126

Open
opened 2026-05-28 13:39:28 +00:00 by NW · 0 comments
Owner

Проблема

Три исследовательских источника дали противоречивые назначения за 72 часа:

  • 25 мая: priority-based (model-research-latest.json)
  • 27 мая: evolution.json → 18 агентов на kimi-k2.6
  • 28 мая: real-fit-report.json → все 36 агентов переназначены

real-fit методология ненадёжна:

  • Эвристическая генерация промптов (8 случайных строк из .md)
  • SWE-bench «unverifiable → null», hash fallback 55-80
  • Разброс оценок: code-skeptic 22.8 vs 91.2 (68 баллов)
  • Возможность USE_MOCK — данные могут быть синтетическими

Решение

Использовать .kilo/logs/fitness-history.jsonl и .kilo/logs/efficiency_score.json — реальные данные реальных прогонов пайплайна.

Acceptance Criteria

  • Скрипт scripts/compute-empirical-scores.py читает fitness-history.jsonl
  • Формула: empirical_score = avg(fitness × 10) по последним N прогонам агента
  • Сравнение: real-fit score vs empirical score для каждого агента
  • Если корреляция < 0.5 — real-fit признан невалидным
  • Если real-fit невалиден — откатить назначения к предыдущим validated моделям
  • Документация: EMPIRICAL_ASSIGNMENT.md

Эстимейт

Medium (10K tokens, ~45 мин)

Assignee

@system-analyst + @sdet-engineer

## Проблема Три исследовательских источника дали противоречивые назначения за 72 часа: - 25 мая: priority-based (`model-research-latest.json`) - 27 мая: `evolution.json` → 18 агентов на `kimi-k2.6` - 28 мая: `real-fit-report.json` → все 36 агентов переназначены `real-fit` методология ненадёжна: - Эвристическая генерация промптов (8 случайных строк из `.md`) - SWE-bench «unverifiable → null», hash fallback 55-80 - Разброс оценок: `code-skeptic` 22.8 vs 91.2 (68 баллов) - Возможность `USE_MOCK` — данные могут быть синтетическими ## Решение Использовать `.kilo/logs/fitness-history.jsonl` и `.kilo/logs/efficiency_score.json` — реальные данные реальных прогонов пайплайна. ## Acceptance Criteria - [ ] Скрипт `scripts/compute-empirical-scores.py` читает `fitness-history.jsonl` - [ ] Формула: `empirical_score = avg(fitness × 10)` по последним N прогонам агента - [ ] Сравнение: `real-fit score` vs `empirical score` для каждого агента - [ ] Если корреляция < 0.5 — `real-fit` признан невалидным - [ ] Если `real-fit` невалиден — откатить назначения к предыдущим validated моделям - [ ] Документация: `EMPIRICAL_ASSIGNMENT.md` ## Эстимейт Medium (10K tokens, ~45 мин) ## Assignee @system-analyst + @sdet-engineer
NW added this to the [Контроль качества] Остановить трэшинг, единый источник правды milestone 2026-05-28 13:39:28 +00:00
NW added the status::newpriority::hightype::enhancement labels 2026-05-28 13:39:28 +00:00
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: UniqueSoft/APAW#126