[Высокий] Перейти на эмпирическое назначение моделей — fitness-history.jsonl #126

New Issue

NW · 2026-05-28T13:39:28Z

NW commented

2026-05-28 13:39:28 +00:00

Проблема

Три исследовательских источника дали противоречивые назначения за 72 часа:

25 мая: priority-based (model-research-latest.json)
27 мая: evolution.json → 18 агентов на kimi-k2.6
28 мая: real-fit-report.json → все 36 агентов переназначены

real-fit методология ненадёжна:

Эвристическая генерация промптов (8 случайных строк из .md)
SWE-bench «unverifiable → null», hash fallback 55-80
Разброс оценок: code-skeptic 22.8 vs 91.2 (68 баллов)
Возможность USE_MOCK — данные могут быть синтетическими

Решение

Использовать .kilo/logs/fitness-history.jsonl и .kilo/logs/efficiency_score.json — реальные данные реальных прогонов пайплайна.

Acceptance Criteria

Скрипт scripts/compute-empirical-scores.py читает fitness-history.jsonl
Формула: empirical_score = avg(fitness × 10) по последним N прогонам агента
Сравнение: real-fit score vs empirical score для каждого агента
Если корреляция < 0.5 — real-fit признан невалидным
Если real-fit невалиден — откатить назначения к предыдущим validated моделям
Документация: EMPIRICAL_ASSIGNMENT.md

Эстимейт

Medium (10K tokens, ~45 мин)

Assignee

@system-analyst + @sdet-engineer

## Проблема Три исследовательских источника дали противоречивые назначения за 72 часа: - 25 мая: priority-based (`model-research-latest.json`) - 27 мая: `evolution.json` → 18 агентов на `kimi-k2.6` - 28 мая: `real-fit-report.json` → все 36 агентов переназначены `real-fit` методология ненадёжна: - Эвристическая генерация промптов (8 случайных строк из `.md`) - SWE-bench «unverifiable → null», hash fallback 55-80 - Разброс оценок: `code-skeptic` 22.8 vs 91.2 (68 баллов) - Возможность `USE_MOCK` — данные могут быть синтетическими ## Решение Использовать `.kilo/logs/fitness-history.jsonl` и `.kilo/logs/efficiency_score.json` — реальные данные реальных прогонов пайплайна. ## Acceptance Criteria - [ ] Скрипт `scripts/compute-empirical-scores.py` читает `fitness-history.jsonl` - [ ] Формула: `empirical_score = avg(fitness × 10)` по последним N прогонам агента - [ ] Сравнение: `real-fit score` vs `empirical score` для каждого агента - [ ] Если корреляция < 0.5 — `real-fit` признан невалидным - [ ] Если `real-fit` невалиден — откатить назначения к предыдущим validated моделям - [ ] Документация: `EMPIRICAL_ASSIGNMENT.md` ## Эстимейт Medium (10K tokens, ~45 мин) ## Assignee @system-analyst + @sdet-engineer

NW added this to the [Контроль качества] Остановить трэшинг, единый источник правды milestone 2026-05-28 13:39:28 +00:00

NW added the status::new priority::high type::enhancement labels 2026-05-28 13:39:28 +00:00

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: UniqueSoft/APAW#126