Spilt test? Hvor længe er det den skal køre før den er rigtig?

Vi har alle hørt det før vi læste en fed optimizely split test, eller da vi blev rådet til at lave splittest.
Test skal køre længe og have mange besøg før du er sikker på resultatet er rigtige.

Jeg besluttede mig for, at sætte det på spidsen, og lave en ekstrem test, som viste hvor galt det kan gå, hvis du ikke får nok besøg.

Jeg satte en test op med 6 muligheder, dette er ekstremt meget, som regel er det en god idé at holde sig til 2, og køre nogen flere i stedet for, alle 6 muligheder er nøjagtigt ens.

Optimizely jeg bruger har en udregner som hele tiden udregner om din test er valid, denne er rigtigt god til at hjælpe dig, den fortæller hele tiden, hvor mange besøg du mangler for, at gøre din test valid. Fordi alle 6 muligheder er ens, er det endnu svære at finde en vinder, for Optimizely, det kræver mindre besøg+konverteringer, at vise en høj forbedring end en lav forbedring, det her er altså sat op til at fejle, fordi forskellen vil være meget lille.
Men sådan er der mange test som er, man tester tit ting som mange kunder slet ikke ser.

Her er testen, jeg har taget et screenshot ved 713, 2813, 4408, 7650, 14.746 og 16.797 besøg. Du skal holde øje med “salg”kolonnen, det er den der viser konverteringsraten.

Som du kan se er det først ved omkring 14.000 besøg at tallene nogen lunde giver mening, og selv efter 17.000 besøg er tallene stadig langt fra hinanden, alt imens Optimizely skriver at resultatet er 95% rigtigt.

Hvis testen var stoppet ved 4400 besøg havde variation 5 været klart bedst med en forbedring på hele 38%, ved 7650 besøg havde variation 3 været bedst med en forbedring på 12%.

Det er ikke de 95% du skal se efter, du skal se noget længere nede på siden, her kan du finde en gennemgang af den enkelte test, den jeg har kaldt salg, her kan du hurtigt se at resultatet er helt hen i vejret:

optimering

Som du kan se siger den jeg mangler ca. 100.000 besøg for, at kunne drage nogen konklusion af testen.

Du kan også trykke “show Chart” og få denne: graf

Her kan du se, hvordan forbedringen har set ud over tid, og du kan se den går imod næsten ingen forbedring.

Hvor mange besøg skal der så til?

Det er svært at sige, men hvad end system du bruger skal det nok fortælle dig det. Dog skal du mindst køre en test i 7 dage, mindst have 1000 brugere over den og meget gerne flere. Der er forskel fra side til side og fra test til test, så der er heldigvis nogen gode værktøjer til, at give dig en idé om det.

Fx denne: A/B Test Sample Size Calculator.
Første felt skriver du din nuværende konvertering, det kan være salg, tilmeldinger til nyhedsbrevet eller noget andet.

Andet felt skriver du hvilken forandring du gerne vil kunne se, jeg har skrevet 10% i feltet, det betyder at jeg højest vil kunne se en ændring af min konvertering til 8,8% eller 7,2%.
Som den skriver kræver dette 17.000 besøgene for, at du kan kunne bruge tallene til noget.

Test-Sample-Size-Calculator

Så har den kørt endnu længere. Og fået mange flere besøg ind.

85 000 besøg faktisk. Hvordan ser det så ud ? Stadig meget dårligt.

Humlen er at du skal lave undersøgelser som er så små som muligt.

85k besøg