В этом модуле вы узнаете, как планировать раскатку фичи и как отслеживать результаты: с какой периодичностью и зачем проводить обратные тесты и что при этом тестировать; какую роль в любом эксперименте играют неприкасаемые пользователи.
Если расчеты показывают, что разница между тестом и контролем статистически значима, то наступает радостный момент раскатки фичи. После включения фичи на 100% аудитории обязательно продолжайте мониторинг ключевых и контрольных метрик, на которые вы повлияли в эксперименте. Рекомендуем заранее обозначить точки контроля, например, через 2 недели, месяц, квартал и полгода.
Хорошей практикой также является отслеживание совокупного эффекта всех раскаток за определенный период, так как фичи могут вызывать синергетический эффект: взаимно усиливать или, наоборот, ослаблять влияние друг друга на целевые метрики. Это можно сделать с помощью следующих инструментов:
- Холд-когорта — сегмент пользователей, на который мы в течение определенного периода не раскатываем никаких изменений. Сравнивая средние показатели аудитории нашего продукта с холд-когортой, мы можем понять, как все наши раскатки повлияли на ключевые метрики.
- Обратные тесты — время от времени проводить A/B-тест, в тестовой группе которого будут выключены все изменения, выпущенные за определенный период.
Что ж, поздравляем, вся теория позади. Теперь финально закрепим идеальный порядок действий для проведения A/B-теста.
- Формулируем гипотезу.
- Строим математическую модель, считаем ROI и решаем, достойна ли гипотеза проведения A/B-теста.
- Проектируем дизайн эксперимента и заполняем наш шаблон.
- Проводим A/A-тест для верификации системы сплит-тестирования.
- Запускаем A/B-тест, на регулярной основе мониторим опережающие метрики и ловим нарушителей.
- Не принимаем никаких решений, пока не наберем достаточное количество наблюдений — помним о проблеме подглядывания.
- Останавливаем A/B-тест и ждем, пока закроется окно конверсии.
- Выгружаем данные, проверяем выбросы и распределение сегментов пользователей.
- Анализируем распределение данных, выбираем статистический критерий, принимаем или отвергаем гипотезу.
- Раскатываем успешную фичу и продолжаем мониторинг.