Ілюстрована інструкція по спліт-тестування веб-сайту

A / B або MVT
Варіанти MVT: повнорозмірний і частковий
Тестування умов випробувань за допомогою A / A тесту
статистична достовірність
Рекомендація: Поступово збільшуйте трафік на експериментальні варіанти сайту

Автор: Томас Ходженхавен (Thomas Høgenhaven), аспірант в Бізнес школі Копенгагена

Спліт-тестування є прекрасним інструментом, що дозволяє підвищити конверсію сайту та принесену їм прибуток. Першочерговим завданням в організації експериментів подібного роду є виявлення значущих чинників (наприклад, підзаголовка, зображення і т.п.), і оцінка їх впливу на конверсію.

Значна частина літератури, присвячена даній проблемі, робить упор на статистичний аналіз, ніж багатьох і відлякує. Томас Ходженхавен спробував створити більш доступне ілюстроване керівництво, яке описує, як правильно організувати спліт-тестування і оцінити отримані результати.

Даний матеріал розрахований, перш за все, на тих читачів, які знайомі з такими поняттями, як конверсія сайту і основними факторами, що впливають на неї. Крім того, слід пам'ятати, що в спліт-тестуванні перемагає не самий кращий варіант, а кращий з тих, які брали участь в тестуванні. А значить у вас (майже) завжди залишається вільний простір для подальшого тестування і підвищення ефективності сайту.

A / B або MVT

Перш за все, необхідно визначитися із загальною схемою тестування. Для оцінки впливу одного або двох чинників зазвичай використовують A / B тести, якщо ж кількість факторів становить два і більше, то краще використовувати багатовимірну схему (MVT). Слід зазначити, що за допомогою серії A / B тестів можна також протестувати два і більше факторів, але в такому випадку буде упущена інформація про взаємодію між ними.

Варіанти MVT: повнорозмірний і частковий

Якщо ви зупинили свій вибір на багатовимірному тестуванні, то тепер треба визначити його конкретний варіант. Найбільш поширеними варіантами є: повнорозмірний і частковий. Перш ніж розібратися в цих термінах, давайте розберемо який-небудь абстрактний приклад. Наприклад, ми хочемо випробувати вплив трьох різних факторів, кожен з яких має два варіанти:

Три фактори в двох різних варіантах в результаті дають (23) 8 груп. У полноразмерном багатовимірному тестуванні будуть використані всі 8 комбінацій. Це означає, що необхідно буде створити 8 варіантів сторінки і рівномірно розподілити між ними відвідувачів. У наведеній нижче таблиці +1 означає перший варіант, а -1 - другий варіант кожного фактора.

Повнорозмірне тестування можна відносно легко реалізувати, якщо у нас три фактори, кожен з яких має два варіанти. Але якщо, скажімо, буде 4 фактора і кожен з них в 4 варіантах, то вийде (44) 256 груп. А якщо 10 чинників, що мають два варіанти - (210) 1024 групи. Для того щоб отримати достовірні результати, нам буде потрібно величезний трафік. Для Google або Twitter це не є проблемою, але якщо ми хочемо продавати піцу в невеликому містечку? Тривалість подібного тестування можна порахувати за допомогою Google Calculator або VisualWebsiteOptimizers Calculator . Ці калькулятори дають наближену оцінку, так як інформації про різницю в конверсії між варіантами у нас поки немає. Саме її ми і хочемо визначити в розробку експерименту.

Часткова багатовимірна схема набула поширення завдяки роботам Геніч Тагучі, тому її іноді так і називають - метод Тагучі. Як це і зрозуміло з назви, в часткової багатовимірної схемою для аналізу відбирається тільки частина від загальної кількості всіляких комбінацій. Скорочуючи кількість варіантів, ми можемо отримати більш достовірні результати для решти.

У наведеному вище прикладі досить протестувати чотири комбінації. Інформація про взаємодію між факторами, включеними в експериментальні групи, дозволить оцінити ефективність тих комбінацій, які були виключені з тестування.

Зупинимося на цьому трохи докладніше. Замість того щоб відчувати фактор A три рази, він буде випробуваний тільки одного разу, при незмінному значенні факторів B і C. Аналогічно, фактор B буде також випробуваний один раз, при незмінних значеннях A і C, то ж саме і щодо фактора C. Тут ми не будемо глибоко розбиратися в статистичних методах аналізу, так як всі необхідні розрахунки за нас зробить спеціальна програма.

Часткова багатовимірна схема передбачає, що кожен фактор, який потрапив в випробування, не залежить від інших. Якщо ж існує взаємодія між факторами (наприклад, зображення і підпис під ним), то це позначиться на достовірності отриманого результату. У разі часткового взаємодії між факторами ми не зможемо з упевненістю сказати про роль кожного з них у зміні конверсії. Наприклад, якщо існує взаємодія між B і C, то ми не можемо бути впевнені, отриманий результат від зміни фактора A або взаємодії між B і C. У зв'язку з цим, якщо є можливість організації повного багатомірного тестування, краще зупинити свій вибір на ньому , щоб уникнути помилок, викликаних взаємодією між факторами.

Тестування умов випробувань за допомогою A / A тесту

Більшість початківців інтернет-маркетологів знайоме з поняттям A / B тесту. Але мало хто з них знає про A / A тесті. Його використовують для тестування умов проведення випробувань. A / A тест бажано виконати перед тим як безпосередньо приступити до A / B або MVT випробувань. A / A тест повинен показати, що відвідувачі коректно розподіляються на групи, і ніякі інші фактори, крім випробовуваних, не вплинуть на результат.

В A / A тесті відвідувачі розподіляються на групи точно так же, як і в A / B або MVT випробуваннях, але кожній групі демонструється однакова версія сайту. Якщо між конверсією в різних групах відсутні достовірні відмінності, значить вся підготовча робота проведена вірно. Виявлення істотних відмінностей між групами говорить про те, що порушуються умови чистоти експерименту, і результати подальших тестів будуть помилковими.

A / A тест також є прекрасним способом продемонструвати співробітникам, босам, клієнтам і собі самому ступінь варіабельності даних. Він є хорошим аргументом на користь того, що не слід радіти при досягненні конверсією значення 80%, особливо на ранній фазі тестування.

статистична достовірність

В ідеальному експерименті ніщо, крім перевірених незалежних факторів, не впливає на результат. Але в реальності, під час проведення експерименту варіюють і інші фактори. Наприклад, в A / B тестування ми розподіляємо людей на дві групи. Але в світі немає двох однакових людей, тому і в ці дві групи потрапляють абсолютно різні люди. Тому, слід прагнути до того, щоб відмінності по невраховуваних факторам були розподілені максимально випадковим чином. В іншому випадку, ми отримаємо зміщену оцінку. Статистична оцінка відмінностей підкаже, наскільки можна вірити отриманим результатам.

Про те, що вплив фактора статистично достовірно, ми можемо говорити лише в тому випадку, коли існує дуже низька ймовірність того, що різниця між порівнюваними групами викликана випадковою помилкою. Іншими словами, призначення статистичної оцінки полягає в тому, щоб визначити ймовірність того, що середня конверсія в обох групах має одне і те ж значення, а різниця між виявленими величинами викликана випадковими чинниками (шумом).

У багатьох експериментах і програмах для статистичних розрахунків в якості порогового значення при оцінці достовірності відмінностей використовується довірчий рівень в 95%. Якщо між двома групами існує відмінність з довірчим рівнем 98%, ми вважаємо його достовірним, навіть з урахуванням того, що існує 2-відсоткова ймовірність того, що виявлена різниця викликана дією випадкових факторів. Виходячи з цього, статистична оцінка потрібна нам для того, щоб визначити ступінь впевненості в тому, що випробовуваний фактор дійсно впливає на конверсію, і яка спостерігається різниця не випадкова. В Google Website Optimizer ця ймовірність називається chance to beat original.

Рекомендація: Поступово збільшуйте трафік на експериментальні варіанти сайту

Чи не розподіляйте відразу весь трафік, що йде на сайт пропорційно між контрольними і експериментальними варіантами. Якщо ви проводите A / B тестування, і пошлете 50% відвідувачів на контрольний варіант сайту, а 50% - на експериментальний, то не виключена ймовірність падіння продажів, якщо що-небудь в експерименті піде не так.

Для початку відправте на тестований варіант тільки 5% відвідувачів. Якщо все йде нормально, то збільште цей показник до 10%, потім 25% і, нарешті, до 50%. Так ви зможете виявити критичні помилки до того моменту, як значна частина відвідувачів зіткнеться з ними.

джерело

Переклад Олександра Нікітіна

Для Google або Twitter це не є проблемою, але якщо ми хочемо продавати піцу в невеликому містечку?