I test A/B fuorvianti sono semplici

di Rostyslav Mykhajliw Fondatore di TrueSocialMetrics.com ~ 4 min

Classico

Il classico test A/B è una distribuzione tra diversi stati. Partiamo da un campione generale che tutti usano. Abbiamo un sito con un pulsante di registrazione, attualmente è blu, ma vogliamo testare un nuovo colore rosso.

A/B testing

Quindi assegniamo lì un po 'di traffico e ne aspettiamo un po'. C'è un semplice calcolatore per statistical significance.

Opzione A: 50k visite - 500 iscrizioni Opzioni B: 50.000 visitatori - 570 iscrizioni - vincitore

B è un vincitore, è chiaro. Più iscrizioni, significatività statistica.

Un nuovo classico dalle mele alle arance

Aspettare un po! Stiamo rilasciando qualcosa di nuovo. Ad esempio, stiamo aggiungendo un pulsante "demo" per una panoramica della guida passo passo attraverso il prodotto. A/B testing a new feature

Se seguiamo una semplice logica di test A/B, non funziona! Perché non possiamo paragonare le mele alle arance. Non possiamo paragonare niente a qualcosa! È totalmente errato. Se non è presente un pulsante demo, gli utenti potrebbero avere un'esperienza peggiore rispetto a coloro che hanno questa opzione. Ma questa opzione può aiutare solo gli utenti che sono già interessati al prodotto o che hanno già dichiarato di utilizzare il prodotto di recente. Anche se hai milioni di traffico non puoi dire come funziona in poche ore/giorni perché i risultati possono essere posticipati nel tempo.

Per una nuova funzionalità dovrebbe essere rilasciato lineare come processo di rilascio enterale. Solo allora, dopo qualche tempo, potremmo esaminarlo e capire se ha avuto o meno un impatto sull'esperienza del cliente, ma monitorando le metriche aziendali. I test A/B NON sono applicabili per una nuova funzionalità.

AA/BB mette alla prova la fiducia

Torna al primo campione con il pulsante di registrazione. Se la nostra ipotesi è corretta, possiamo aggiungere più opzioni A e più opzioni B e nulla è cambiato, perché B può ancora vincere la battaglia.

AA/BB testing

Quindi guarda i risultati:

A1: 50k visite - 500 iscrizioni A2: 50.000 visitatori - 580 iscrizioni - vincitore B1: 50.000 visitatori - 570 iscritti - vincitore B2: 50k visitatori - 500 iscrizioni

CHE COSA! CHE COSA! CHE COSA! Puoi dire che è impossibile, ma questa situazione mostra la differenza se l'allocazione dei visitatori ha effetto sui risultati dei test. E questi risultati mostrano una significatività statistica stabile del 95% ma confidenza bassa.

Test adattivi

Se torniamo all'inizio dell'articolo noteremo un enorme traffico di 50.000 visitatori e 500 transizioni necessarie per ricevere risultati significativi. Tuttavia non tutte le pagine hanno questa possibilità. Non tutte le startup sono abbastanza buone per generare un tale traffico, o potrebbe trattarsi di pagine a basso traffico come impostazioni/fatturazioni, ecc. o giù di lì. Il prossimo svantaggio dell'approccio generale è che almeno 50.000 visitatori (dai 100.000 assegnati al test) peggiorano l'esperienza del cliente. Quindi stiamo aspettando da molto tempo e perdendo clienti a causa dell'assegnazione a un test "perdente". Ha senso? In ambito sanitario i medici incrociavano i casi, ma in un tavolo c'era la vita delle persone. Se facciamo un test durante la strega, il 50% delle pazienti sta morendo a causa di "cure non ancora testate". Ed è fottutamente pazzesco. Ecco un ragazzo Marvin Zelen che ha avuto l'idea di Adaptive test, chiamato ora Zelen’s design.

In parole povere

Immaginiamo di avere 2 possibilità: palline rosse e blu, quindi statisticamente è il 50% di probabilità.

Adaptive test initial state

Ad esempio, assegniamo in modo casuale il visitatore a "blu" e "blu" è un'esperienza migliore perché abbiamo ottenuto l'acquisto. In questo caso "blu" sta vincendo, ecco perché aggiungiamo una pallina "blu" in più al pool.

Adaptive test added blue ball

Quando la probabilità del risultato è cambiata "rosso" - 33% e "blu" - 67%

Suona bene! Ma il prossimo visitatore con "blu" non fa nulla. Quindi "blu" sta perdendo, ecco perché dobbiamo rimuovere una pallina "blu" dal pool e abbiamo ottenuto il nostro stato precedente.

Adaptive test final state

Vantaggi: + funziona per una piccola quantità di traffico + fornisce in modo adattivo una migliore assistenza agli utenti Svantaggi: - richiede che gli sviluppatori lavorino per capire i test vincenti/perdenti nel processo di test

Commozioni cerebrali

  • Il test A/B classico non funziona per una nuova funzionalità perché non puoi testare nulla con qualcosa
  • Di solito i test A/B NON sono rappresentativi anche se la tua analisi dice che lo sono
  • L'approccio AA/BB aiuta a controllare i risultati dei test A/B
  • Il test adattivo è estremamente utile per il traffico ridotto, ma richiede un lavoro manuale per raggiungere gli obiettivi


Quando sei pronto a scuotere le tue analisi sui social media

prova TrueSocialMetrics!


Inizia la prova
Nessuna carta di credito richiesta.






Continua a leggere




Analizzando le migliori campagne Facebook del 2012
È sempre curioso apprendere le best practice dai top performer. Ma ancora più interessante sapere cosa succede dietro i risultati ufficiali delle migliori campagne sui social. Cosa è successo dopo l'attività di successo? Quali tecniche creative sono state utilizzate per coinvolgere i follower? Analizziamo le migliori 3 campagne Facebook dei vincitori del premio Facebook Studio 2013. E trova qualcosa di curioso.


Film su Facebook: modi creativi per promuovere le uscite in DVD
L'obiettivo principale delle pagine Facebook per i film è promuovere la loro uscita nelle sale e aumentare le vendite dei biglietti. Ma quando lo spettacolo è finito, il lavoro continua per una seconda ondata in arrivo: le versioni su disco. Ero curioso di sapere quali tecniche di contenuti creativi usano gli studi cinematografici per promuovere le loro uscite su disco. Quindi ho guardato i migliori film del 2014 e ho utilizzato la funzione Segmentazione dei contenuti per analizzarli.


Il tipo di pin più virale: Barney's su Pinterest
Mi sono imbattuta in un'interessante tecnica che Barney usa per presentare i suoi vestiti e accessori su Pinterest. Fanno sempre 2 tipi di spille per ogni prodotto: un “Prodotto Individuale” e un “Prodotto in un Ambiente”. Non potevo semplicemente passare e non confrontare l'efficacia di entrambi i metodi di rappresentazione del prodotto. Quale ha maggiori probabilità di essere nuovamente appuntato e apprezzato: un formato "prodotto individuale" o un formato "prodotto in un ambiente"?


Quanto spesso i migliori marchi twittano
Non esiste un proiettile d'argento sulla densità di pubblicazione ideale su Twitter. Dovrai trovare il tuo punto debole proprio come hanno fatto i principali marchi mondiali. Alcuni di loro sanno sicuramente come fare rock sui social media, quindi dovresti modellarti su di loro nel miglior modo possibile.