Как проводить A/B-тесты на операционке, когда на результаты влияет человеческий фактор?

Продакт отвечает. Как проводить A/B-тесты на операционке, когда на результаты влияет человеческий фактор?

Виталий Черемисинов, Co-founder, Experiment Fest

В таких экспериментах есть две проблемы, разберем их на примере сети магазинов бытовой техники:

  1. Поиск похожих магазинов или отделений, выбор критериев похожести. Например, по ассортименту, динамике продаж, среднему чеку.
  2. Социальные и сетевые эффекты. Пользователи активно коммуницируют между собой. Например, в эксперименте Фейсбука один человек получил возможность отправлять новые смайлики, а другой — нет. Но они общаются, и это влияет на результат эксперимента. Еще может проявиться эффект каннибализации, когда клиенты одного магазина переходят в другой прямо во время эксперимента (тестовые условия оказываются привлекательными, и слух об этом быстро распространяется).

make sense #86: о математическом мышлении, статистике и A/B-тестировании с Виталием Черемисиновым

Что касается внутренних тестов на сотрудниках компании, то продавцы точно будут общаться и нарушать условия эксперимента.

Золотого правила у меня нет. Но есть одна концепция, и, возможно, она будет полезной. Некоторые компании тестируют скрипты так: полдня продавец использует один скрипт, полдня — другой. А потом операторов меняют, пока они не поняли, какой скрипт лучше.

Владимир Баяндин, Head of Product, Skyeng

Представьте, что вы проводите эксперименты, где есть человеческий фактор. Например, тестируете новый скрипт для отдела продаж. Вы поделили свой большой отдел продаж на две части. Первой части выдали один скрипт, второй — другой и рассчитываете получить валидные результаты. В таком случае вам нужно контролировать человеческий фактор и убедиться в том, что сотрудники отдела продаж действительно соблюдают правила эксперимента и участвуют в нем, а не игнорируют его. 

Мы часто проводим тесты с человеческим фактором. Что-то тестируем в колл-центре, что-то — на учителях. Чтобы следить за соблюдением условий эксперимента, мы разрабатываем чек-листы «правильного внедрения». Они описывают, как себя должны вести люди в контрольной и тестовой группе. После этого мы создаем отдельную команду контроля, которая проверяет, что участники на самом деле соблюдают условия эксперимента. 

Как подготовиться к A/B-тестированию?

Эти люди, асессоры, отслушивают телефонные записи, просматривают вводные уроки и заносят данные в специальную форму, а мы потом оцифровываем результаты проверки. В результате получается таблица, в которой видно процент нарушений по группам. Мы сравниваем результаты и можем понять, какие группы соблюдают результаты эксперимента, а какие — нет. И до тех пор, пока мы не убедимся, что все участники соблюдают условия эксперимента, мы не начинаем фиксировать наблюдения по тесту. Потому что до этого наш эксперимент будет невалидным. 

В таких экспериментах очень важно внимательно относиться к деталям. Расскажу забавный случай из своей практики. Я был еще молодым менеджером продуктов, и как-то раз мы проводили один из первых экспериментов с человеческим фактором. Сделали табличку, разделили сотрудников отдела продаж на три группы на основании истории их конверсий. Я отправил ее руководителю отдела и сказал: поделите людей именно в таком соотношении. Но я забыл убрать права на редактирование таблички, и уже на второй день увидел, что эксперимент идет не так. Я зашел в историю изменений — оказалось, что участники эксперимента начали меняться группами из-за того, что им не нравились какие-то варианты скриптов. Так они разбалансировали заранее подготовленные выборки и сломали эксперимент.  Пришлось его перезапускать. 

Арсений Ольховский, Head of Growth, LegionFarm

A/B-тесты и культура постоянных измерений могут превратиться в гильотину для полезных бизнесу идей, которые сложно или даже невозможно измерить. Еще одна проблема A/B-тестов — они стоят дорого, и та ценность, которую они могут дать, не всегда окупает затраты на них.

К примеру, у нас есть операционный продукт со штатом курьеров или командой поддержки, и я хочу провести сессию с операционными сотрудниками, поработать с их уровнем мотивации, чтобы они общались с клиентами более позитивно и создавали для них более приятный пользовательский опыт. В теории этот процесс можно A/B-тестировать, но стоить это будет дорого, потому что придется развести людей по разным городам и офисам, сделать так, чтобы они не были знакомы и не влияли друг на друга. Но по факту это приведет к тому, что клиенты, с которыми они взаимодействуют, будут отличаться. И если даже такое тестирование получится валидным, оно окажется очень дорогим.

Кейс: как определять качество системы A/B-тестирования

Вообще, я думаю, что senior менеджер продуктов отличается от middle и junior тем, что помимо работы с областью предсказуемого и поддающегося измерению он умеет использовать интуицию, эмпатию и абстрактное мышление. Он понимает, что в его голове находится мощная нейронная сеть, в которую он загрузил много качественной и количественной информации о рынке, общался с пользователями, изучил много исследований, видел, как люди взаимодействуют с его воронкой и продуктом. Эта нейронная сеть позволяет ему принимать неочевидные решения, сложно поддающиеся измерениям. 

И это нормально. Такой метод позволяет менеджеру приоритизировать работу над своим продуктом не в пользу простоты измерений: вот, смотрите, я провел A/B-тесты и у нас что-то выросло, мы молодцы и получили отличный результат — а в пользу вероятного прироста и пользы для бизнеса. Нейронная сеть в голове у senior менеджера продуктов говорит: давай сделаем вот такую штуку, если что-то пойдет не так, мы не сломаемся, не разрушим бизнес и всегда сможем откатить свое решение, так что риски не очень высокие. Зато мы можем вырасти. И после удачного внедрения можно даже не доказывать, что прирост и наша идея как-то связаны, можно просто в это верить. Я надеюсь, что такая модель мышления позволит вам не похоронить несколько удачных, но трудно измеримых идей, которые способны улучшить жизнь ваших пользователей и помочь бизнесу вырасти.