Sej split-test og mit pis i kog i 2016

re: Sej split-test og mit pis i kog i 2016

Mikkel — Thu, 14 Jan 2016 05:48:15 GMT

Hvorfor har du optimeret efter micro conversions og ikke macro? Altså, hvor mange der FAKTISK signede op, i stedet for blot klikkede. Kender godt svaret, resultatet kunne findes hurtigere? Men eksperterne er uenige med dig i, at det er korrekt at teste sådan.

http://conversionxl.com/should-you-optimize-for-micro-conversions/

Hej Mikkel. Du har til dels ret og så alligevel ikke. Vi målte skam både på klik på elementet, sidevisninger af den URL man ender på og på den afsluttende konvertering. Du har ret i at resultatet for den endelige konvertering ikke var statistisk validt da vi valgte af afslutte testen (men som du ser har vi bekræftet løftet andetsteds), så mere tid kunne måske have hjulpet. Dog skal man også huske, at der er mange andre ting der påvirker antallet af makro-konverteringer, hvorfor det tal ikke alene kan tilskrives den ændring jeg testede på. Så det mest korrekte er stadig at forholde sig skarpt til lige præcis det testen målte på, nemlig om flere trykkede på knappen når de så en variant. /Ole

re: Sej split-test og mit pis i kog i 2016

Ole Gregersen — Fri, 08 Jan 2016 07:22:55 GMT

Sorry - det er selvfølgelig ikke en omvendt klokkeform, men bare en klokkeform - my bad...

re: Sej split-test og mit pis i kog i 2016

Ole Gregersen — Fri, 08 Jan 2016 07:17:34 GMT

@Peter - tak for dine kommentarer. Jeg synes heller ikke det er helt korrekt at sammenligne med tilfældighed eller udfald på en terning. I gør beregningen det at den undersøger hvor gange resultatet bliver 0 eller 1 - om brugeren konverterer eller ej. Konverterer brugeren 50% af gangene bliver konverteringsraten 50% på den givne variation. Men fordi det vi i virkeligheden spørger om i split-testen er "hvad er sandsynligheden for at brugeren konverterer næste gang", så lægger vi et statistisk syn ned over de tal. Vi bruger så en standard normalfordeling til at vurdere sandsynligheden (den her omvendte klokkeform). Jo flere gange vi tester og for 1 eller 0, desto større er den statistiske sandsynlighed for at konverteringraten faktisk vedbliver 50%. Laver vi den beregning for begge variationer får vi noget der grafisk ser således ud: http://oleg.dk/uploads/bells.png - hvor jeg har indsat tallene fra Per Allerups test. Lidt populært sagt, så kigger testværktøjet på om de to omvendte klokker overlapper. Når det overlap er lille nok, så siger man at der statistisk er stor nok sikkerhed - men altså på at den ene konverteringsrate er X% større end den anden. Selvom begge variationer stadig har usikkerhed og dermed kun statistisk har den konverteringsrate der angives. Værktøjet kan du selv prøve her: http://www.peakconversion.com/2012/02/ab-split-test-graphical-calculator/

Så når du oplever test, hvor at resultaterne for dine variationer er meget ens, er det altså ikke tilfældigheder, ej heller mener jeg man kan sige at de altid vil udlignes over tid. Det er snarere et udtryk for at de to (eller flere) konverteringsrater simpelhen er meget ens og der for statistisk ikke kan siges at være forskellige nok til at fx VWO vil kalde den ene vinder.

re: Sej split-test og mit pis i kog i 2016

Martin Haun — Fri, 08 Jan 2016 07:14:57 GMT

Udfordringen med split-test er, at det på ingen måde er så nemt som f.eks. VWO og Optimizely gerne vil gøre det til.

Ja, det er nemt at skift farven eller teksten på en knap, men at analysere resultatet er straks mere kompliceret.

For det første, er der det med at starte og stoppe testen samme dag i ugen (og samme tidspunkt). Dette er der endda også faldgruber i.

Dernæst skal man dykke ned i sine trafikkilder for at se på adfærdsforskelle. Derefter kan man kigge på fordelingen af mobil/tablet/desktop og for at det ikke skal være nok, kan man herefter igen segmentere på browsertype og browserversion.

Jeg har f.eks. set tests hvor Optimizely udråbte kontrollen som vinder overordnet set, men hvor man ved segmentering kunne se at 'repeat visitors' og IE 9-11 brugere i variationen lå 30% over kontrollen i konverteringsrate. Hvorfor så det? Ny test...

Når man begynder at begå sig i disse data, så dukker der pludselig også noget op omkring multi-variant tests og falske positive (ved 95% statistisk signifikans er der stadig 5% fejlmargin. Når det ganges op med antal variationer, stiger chancen for falsk positiv).

Se mere her om emnet og Googles 41 shades of blue test m.m. her:

http://fast.wistia.net/embed/iframe/k79a22y65d?videoFoam=true

re: Sej split-test og mit pis i kog i 2016

Peter Sørensen — Thu, 07 Jan 2016 17:15:50 GMT

Det er rigtigt Dennis, tilfældighed og brugeradfærd er 2 forskellige ting men som uerfaren splittester ligner de to ting meget hinanden og ser du nok data over tid vil de opføre sig meget ens. Med mindre man er forsker på området vil jeg ikke kunne forklare hvorfor brugerne måske foretrækker en grøn knap fremfor en anden.

re: Sej split-test og mit pis i kog i 2016

Dennis Damsager — Thu, 07 Jan 2016 16:14:15 GMT

Peter - Det sidste du skriver er da ikke korrekt.

Splittesten på webshoppen er jo en test af brugeradfærd og ikke tilfældighed som dit eksempel med terningen hvor chancen for 1-6 jo ved hvert kast er den samme.

Chancen for at knap A eller B bliver brugt er ikke den samme hver gang, det afhænger jo netop af de faktorer du tester på, så selv et udsving på 5% kan være en "god vare". Men mængden af data er naturligvis udslagsgivende ifht. at vurdere hvordan du bruger resultatet.

re: Sej split-test og mit pis i kog i 2016

Peter Sørensen — Thu, 07 Jan 2016 07:57:52 GMT

som uerfaren splitester har jeg fået mange forskellige resultater uden at kunne sige exact hvorfor. Ofte bliver det gætterier og forskellige layout uden at kunne begrunde hvorfor man laver de ændringer.

Kaster man en terning 1000 gange vil 6 og 5 måske have en tendens til at blive valgt frem for de andre men kaster man den 1.000.000 gange vil det udligne sig mere men man kan stadig risikere at 6 har en højere tendens til at blive valgt. Kan man så konkludere at 6 i højere grad vil blive valgt frem for de andre eller er det bare tilfældigt?

Hvis testen gentages vil det så være 5 der er landet på fleste gange?

Jeg er absolut enig i at man kan teste og frasortere en dårlig landingpage fra en god men når forskellen bliver mindre end 10-20% så kan man ikke tage resultatet for gode vare og det vil udligne sig over tid hvis man er tålmodig nok.

re: Sej split-test og mit pis i kog i 2016

Ole Gregersen — Thu, 07 Jan 2016 07:18:22 GMT

Per - tak for din kommentar og fordi du bidrager og deltager i diskussionen.

Mikkel - tak fordi du uddyber og præciserer. Det er noget kringlet noget med det statistik og jo mere jeg kigger på det, desto sværere synes jeg det er at lave split-test. Nu gik vi lige og troede at maskinen kunne fortælle hvad der var godt og skidt og så drukner det i tal-sovs, fejlkilder og støj. Det kan godt være lidt irriterende. Så meget desto mere skal vi hjælpe hinanden med at holde fokus og forstå hvilken betydning det har for vores test.

re: Sej split-test og mit pis i kog i 2016

Mikkel Brenøe-Jensen — Wed, 06 Jan 2016 21:16:30 GMT

Glimrende artikel med fokus på netop validitet og signifikans, Ole!

Husk nu på, at statistisk signifikans ikke er det samme som validitet. Som Ton Wesseling, grundlæger af Testing Agency siger: ”..at stoppe en A/B splittest, når den opnår signifikans, er dødssynd nummer 1 i A/B-test land. 77% af A/A-test vil opnå signifikans på et givent tidspunkt.”

Signifikansniveauet eller i VWO's tilfælde ”chance to beat” er ikke et udtryk for hvor stor sandsynlighed, der er for at variationen er bedre end kontrollen, og den fortæller os heller ikke sandsynligheden for, at vi laver en fejl ved at vælge den vindende variation frem for kontrollen. Mats Gershoff har skrevet en særdeles grundig artikel omkring P-værdier her: http://conversionxl.com/pulling-back-curtain-p-values-learned-love-small-data/, og hvorfor et 100 % signifikant resultat eller ”100% chance to beat” godt kan gå hen og være den tabende på længere sigt.

Når testen kun køres over få dage, så får man ikke indsamlet nok viden omkring data og op/nedsving og dens kohorter. Som Martin også nævner det: ”Hvis der på to dage kan forekomme så mange konverteringer (mikro eller makro), så kan der være en bred vifte af faktorer der spiller ind, som kunne fase ud over tid”. Vi må huske på, at vi ikke på så kort tid kan komme omkring de forskellige typer af grupper af brugere, de såkaldte kohorter. Derfor er man nødsaget til at køre testen over alle typer af dage, og helst også alle tidspunkter på måneden, eftersom folk prioriterer og distribuerer forskelligt i forhold til penge og tid. På den måde får vi den mest repræsentative stikprøve af vores gennemsnitlige population/målgruppe.

Jeg læser desværre også tit disse splittest uden en egentlig solid bund af data bagved. Det er på ingen måde rettet imod dig Per, selvom du lige kom I klemme her i denne artikel, for det sker rigtig hyppigt.

re: Sej split-test og mit pis i kog i 2016

Martin Haun — Wed, 06 Jan 2016 19:50:46 GMT

Jeg må erklære mig enig med Ole her. To dage er for lidt til at stole på at resultatet er korrekt, blot fordi VWO siger det.

Hvis der på to dage kan forekomme så mange konverteringer (mikro eller makro), så kan der være en bred vifte af faktorer der spiller ind, som kunne fase ud over tid.

Jeg har i flere tilfælde set både dag 1, 2 og 3 i split-tests stikke helt af på sites med mange besøgende, for efterfølgende, over tid, at ramme samme niveau som kontrollen eller f.eks. "kun" 3.8% over.

re: Sej split-test og mit pis i kog i 2016

Per Allerup — Wed, 06 Jan 2016 18:10:08 GMT

Uh, den var da vist til mig.

Jeg sendte faktisk også et skærmdump til Morten med de uslørede tal, men han brugte så versionen med blur.

Jeg får lige Morten til at opdatere med tallene, så I ikke koger over derude. Det kan vi jo ikke have.

Men for en ordens skyld: VWO mener at der er 100% sandsynlighed for at varianten slår control, og konverteringstallene er V1: 188/629, C: 136/594.

Som det angives i blogindlægget er der tale om mikrokonverteringer.