Ловушка одной метрики

Правило одной метрики

В A/B-тестировании выбираешь одну метрику. Иначе будешь p-hacking’ить, cherry-pick’ить, рассказывать себе историю вместо того чтобы читать данные. Дисциплина реальна. Правило верное.

Но каждый хороший аналитик, с которым я работал, делает то, что правило не описывает: смотрит на всё остальное тоже. Не чтобы переопределить метрику — чтобы услышать гармоники вокруг неё.

Метрика — это основная частота. Всё остальное — обертоны. Правило говорит: «слушай основную частоту». Навык — слышать весь аккорд.

Что делает модель хорошей

Это было самым сложным для объяснения студентам. Не математика — математика обучаема. Не инструменты — инструменты гуглятся. Сложное — это: что делает модель хорошей?

Плоская модель захватывает очевидный сигнал. Хорошая модель захватывает структуру, о которой ты не просил — паттерны, которые спецификация не упоминала, связи, которых не было в брифе. Глубину. «Объёмность». Что-то, что выходит за рамки запрошенного и касается того, что реально существует.

И вот мета-проблема: ты не можешь этому научить кого-то, у кого ещё нет концепции плоское/объёмное. Это как объяснять гармоники тому, кто слышал только прямоугольные волны. Он не тупой — у него просто нет перцептивной оси. Некоторые студенты ловят сразу. Другим сначала нужен обучающий набор плоских моделей — достаточно «технически правильных, но почему-то пустых» результатов, чтобы начать слышать, чего не хватает.

«Я доверяю интуиции»

Есть фильм «Милосердие» (2026, реж. Бекмамбетов) — коп против ИИ-судьи. ИИ оперирует данными: камеры наблюдения, вероятностные оценки, паттерны преступлений. Он вычисляет вину на 97,5%. Его метрики безупречны.

Коп говорит: «Я доверяю интуиции».

Это не анти-интеллектуализм. Это другой инструмент. Интуиция — это широкополосный процессор, который не может артикулировать, что детектирует — но детектирует что-то реальное. Что-то, что модель данных сжала и выбросила.

ИИ в «Милосердии» — идеальный дашборд: каждая метрика зелёная, каждое предсказание обосновано, каждое решение аудируемо. 97,5% вероятности вины (тот же порог, который мы используем для значимости A/B-теста) — а в 2,5% содержалась вся правда. Коп — это аналитик, который говорит «что-то не так» и не может указать на строку в таблице. Один проходит любую проверку. Другой ловит то, что проверка пропустила.

Фреймворк уже знает

У проблемы «одной метрики недостаточно» есть таймлайн. Каждый шаг приближался. Ни один не дошёл.

Но сначала — правило одной метрики это не просто управленческая философия. Это математическое ограничение. Статистический тест принимает одну метрику. Тестируй несколько метрик одновременно — получишь проблему множественных сравнений: завышенный уровень ложноположительных, p-hacking по выбору. Математика требует сжатия. Поэтому напряжение так фундаментально — дело не в том, что кто-то решил упростить. Сам инструмент может видеть только одну вещь за раз.

Гудхарт (1975): «Когда мера становится целью, она перестаёт быть хорошей мерой». Метрику геймят. Люди оптимизируют число, а не то, что число должно было представлять. Фикс: лучшие стимулы.

Кэмпбелл (1979): «Чем больше количественный социальный показатель используется для принятия решений, тем больше он подвержен давлению коррупции». Тот же инсайт, шире scope. Фикс: осознание коррупции.

Заблуждение Макнамары (Янкелович, 1971): Подсчёт тел говорил, что Америка побеждает во Вьетнаме, пока Америка проигрывала. «То, что нельзя легко измерить, реально не существует. Это самоубийство». Фикс: включить качественные данные.

Kohavi et al. (2009, 2020): OEC — одна метрика, чтобы править всеми. Но сразу окружённая guardrail-метриками, debug-метриками, сегментными разбивками. Фреймворк строит правило одной метрики и тут же патчит его аварийными выходами. Фикс: больше метрик вокруг основной.

STEDII (Microsoft ExP, 2022): «Почти у каждой метрики есть слепое пятно, потому что она агрегирует большое количество измерений в одно число». Фикс: добавить разбивочные метрики, сегментные метрики, диагностику. Больше дашбордов.

Мюллер (2018): The Tyranny of Metrics. Институциональный ущерб от одержимости метриками в образовании, здравоохранении, полиции. Фикс: перестать поклоняться метрикам в политике.

Каждый из них замечает зазор. Каждый предлагает патч: починить стимулы, добавить качественные данные, добавить больше метрик, добавить guardrails, добавить сегменты. Всё — инженерные решения.

Но guardrail-метрики — это модель, кричащая «одной метрики недостаточно». Правило говорит: «одна метрика». Практика говорит: «одна метрика, плюс все эти другие вещи, за которыми надо следить, иначе сломаешь что-то важное». Никто не называет это противоречием. Но это противоречие.

Я думаю, сжатие — неотъемлемо. Не чинится добавлением ещё сжатых сигналов. Не баг — свойство измерения как такового. Акт измерения — lossy. Навык — слышать то, что потерял.

Сжатие — не проблема

Вот что я не говорю: «выброси свои метрики». Это так же плоско, как поклоняться им.

A/B-тестирование с одной метрикой работает. NPS работает. DAU работает. Они полезны — реально полезны, достаточны для большинства решений.

Проблема не в сжатии. Проблема в том, что забываешь, что сжал.

Не бывает чисто положительного или отрицательного результата — это 1-битное кодирование аналоговой реальности. Не бывает чистых победителей и проигравших — это табло, приложенное к чему-то, что не является игрой. Даже «хорошая модель vs. плохая модель» слишком плоско — интересный вопрос: что эта модель видит, чего другая не видит?

Каждый раз, когда выбираешь метрику, выбираешь, что выбросить. Вопрос не в том, точно ли твоё измерение. А в том, помнишь ли ты, что потерял, когда выбрал.

Настоящий навык

Аналитики и продакт-менеджеры, которые реально хороши — не просто компетентны, а хороши — держат и то, и другое одновременно. Они проводят A/B-тест с одной метрикой И слышат гармоники. Они смотрят дашборд И считывают комнату. Они доверяют модели И доверяют интуиции.

Не потому что одно из двух неверно. Потому что одно из двух — плоско.

Upd. После публикации я понял, что статье нужна иллюстрация. Нашёл сразу — надпись на Кольце Всевластья: «One Ring to Rule Them All, One Ring to Find Them, One Ring to Bring Them All, and in the Darkness Bind Them».

Параллель не в том, что одна метрика — зло. А в том, что привлекательность Кольца та же: одна вещь, чтобы контролировать всё. Чисто, мощно, эффективно. Но Кольцо не просто упрощает — оно ослепляет. Кто его надевает, перестаёт видеть то, что раньше видел. «In the darkness bind them» — тьма это не техника. Это то, что происходит со всем, что метрика не освещает. Ты перестаёшь замечать, что потерял.

Саурон не собирался делать мир тёмным. Он собирался контролировать его эффективно. Одно кольцо. Одна метрика. Тьма — побочный эффект сжатия.

И раз уж мы тут — «Земля будущего» (Tomorrowland, 2015, реж. Брэд Бёрд). Машина, построенная для предсказания будущего, обнаруживает, что Земля движется к уничтожению. Она транслирует вероятность человечеству. Вместо того чтобы мотивировать перемены, число заставляет людей сдаться. Предсказание становится самосбывающимся. Одна метрика — вероятность гибели — сжала сложную ситуацию в одно число, и число заменило реальность, которую должно было измерять. Дашборд сказал «вы проигрываете», и все перестали пытаться выиграть.

#productmanagement #analytics #systemsthinking