В этом модуле вы узнаете, в чем главное ограничение A/B-тестов; с какой целью нужно запускать эксперименты, где тестовая и контрольная группы ведут себя одинаково; как проверять распределения пользователей и снижать вероятность ошибки.

Вы спроектировали эксперимент, заполнили документацию по шаблону и готовы запускать A/B-тест. Но не спешите включать рубильник. Есть еще одна полезная процедура, которая сможет сэкономить вам кучу времени и нервов — это A/A-тест.

В A/A-тесте мы делим пользователей на две группы, но даем им одинаковые варианты. Справедливый вопрос: что же мы тогда тестируем? Правильный ответ — систему сплит-тестирования.

Обязательное условие корректного эксперимента — пользователи должны распределяться по группам равномерно и случайным образом. Если нарушить этот принцип, мы рискуем обнаружить статистически значимую разницу между двумя группами, но не из-за изменения в продукте, а, например, из-за того, что в одну из групп попало больше теплого трафика или более мотивированные пользователи. Чаще всего такая проблема возникает из-за некорректной работы сплит-системы. Проведение A/A-теста позволяет нам провалидировать ее работу:

1. Проектируем обычный эксперимент. Единственное отличие — обе группы пользователей видят один и тот же вариант нашего продукта.

2. Собираем необходимое количество наблюдений, рассчитанное при проектировании теста.

3. Анализируем данные, как в обычном тесте, только разница в ключевых метриках между группами не должна быть статзначимой.

Если точнее, то разница в A/A-тесте может оказаться статзначимой, но не чаще, чем это заложено при проектировании нашим уровнем значимости. Например, если мы проектировали A/A-тест с уровнем значимости 5%, то только один из двадцати A/A-тестов может ложно прокраситься. Если мы получаем статзначимую разницу чаще, то у нас проблемы.

Если A/A-тесты проходят корректно, то можно запускаться. Ура!