Amino Ekspertblog

Ekspertblogger på Amino om konverteringsoptimering

Sej split-test og mit pis i kog i 2016

Skrevet af:
6. januar 2016 | 6.978 Visninger | 11 kommentarer
Hvor mange stjerner giver du? :

Amino Ekspertblog

Ole Gregersen

Ekspertblogger på Amino om konverteringsoptimering

Får du gode split-test resultater, så del dem. Læser du gode split-test resultater, så vær kritisk. 

Man skal ikke skamme sig over gode split-test resultater. Så når vi rammer rigtigt, skal vi da fortælle hele verden om det. Vi skal dele vores succes - også så vi potentielt dækker over alle de gange vi har haft lyst til at kyle testen i skraldespanden ;-)

Så tillad mig lige at fyre en totalt klassisk test af her. Både for at vise hvad der kan lade sig gøre, men også for at understrege et par vigtige split-test leveregler.

Testen først

Som en del af et optimeringsprojekt for webshoppen Med24.dk, der handlede om at få flere besøgende til at blive medlemmer i Med24's klub, arbejdede vi med alle de trin der indgik i den konvertering. Indgangen, mod konverteringen til medlem, gik blandt andet igennem et banner placeret over hele sitet (på nær i tjek-ud forløbet). 

Det var oplagt at udfordre om ikke vi kunne få flere til at klikke på banneret, lede dem ind i tragten og motivere dem til at blive medlemmer. 

Fra kundeinterview og brugertest vidste vi, at det der motiverer besøgende til at blive medlem hos Med24 er rabat (fast procentsats for medlemmer) og vareprøver. Samtidigt var det oplagt at afprøve, om større synlighed for knappen ville ændre antallet der klikkede på den.

Så netop de to aspekter indgik som testhypoteser: Kan vi få flere klik ved at øge knappens form og farve - og derved kontrasten i relation til resten af sitet. Og kan vi øge antal klik ved at angive, at medlemskabet også giver gratis vareprøver.

Det gav en split-test med to variationer - de er vist her sammen med den originale knap:

Så tænker du nok, at det er den klassiske test på bare at lave knappen grøn. Ja, det er det også, men pointen er, at alle de andre knapper allerede var orange. Grøn er komplimentærfarve til en orange og bruges andre steder på websitet til at markere handling. Så det var ikke "bare" at prøve en grøn.

Men samtidigt har du ret. Det er den klassiske orange versus grøn test. Det er det der gør det så lækkert. At nogle gange, så ja, så virker det.

Her er resultatet fra split-testen fra VWO:

En stigning på over 100% - altså på antal klik på knappen. (Vi ved fra analytics at Med24 også har dobbelt så mange visninger af medlemssiden og antallet af nye medlemmer er steget 22% mellem sammenlignelige kvartaler før og efter testen - men det er altså ikke det, testen målte).

Bemærk, at jeg med rank ryg fremviser at testen har kørt i mere end 3 uger (for at kunne sammenligne 3 "rene" uger med data i Google Analytics), at antallet af konverteringer ligger mellem 250 og 500 og at den statistiske validitet ifølge VWO er 99%. Testen er kørt på al trafik. Vi har efterfølgende segmenteret data i Google Analytics.

For det er vigtigt når du læser artikler som den her. At du holder øje med, om tallene bag testen bliver delt med dig og hvad tallene faktisk dækker over. Selv i ovenstående eksempel er der masser du kan udfordre: Testen viser resultatet for alle trafikkilder og for alle typer enheder. Men det er ikke ligemeget fx hvilken betalt trafik der ledte brugerne ind på sitet. Hvad nu hvis de fx er blevet lovet vareprøver i en kampagne? Hvad nu hvis knappen sad helt "noller" i mobilversionen?

Pas på du ikke snyder dig selv. Hvad Med24 og jeg gør med dette resultat er vores egen beslutning, men hvis du blindt kopierer testen, så risikerer du at skyde dig selv i foden.

Jeg bliver sgu lidt knotten

Det er derfor jeg lige skal bringe mit pis i kog en gang mere og råbe vagt i gevær. Jeg har nemlig lidt svært ved ikke at blive knotten når jeg læser split-test resultater, hvor der tydeligt er alt for få data til rådighed. Både for få til at konkludere noget og for få til at vi som læsere kan stole på resultatet.

For en uges tid siden (og denne tekst er skrevet i uge 1), præsenterede et velkendt navn her på nettet en split-test case der efter sigende gav et løft på 30%. Det er et flot resultat og må udløse både en bonus og en forfremmelse. Men læste man teksten, var der især to ting der generede mig.

For det første var testen baseret på kun 2 dages split-test. 2 dage!

Vi er mange der har sidder med Visual Website Optimizer og glædet os over flotte tal de første par dage, blot for at se testen stabilisere sig og ende i noget helt andet. Der findes også mange eksempler på test, hvor "taber" og "vinder" bytter plads i løbet af testen. Der er efterhånden også mange blogindlæg fra meget respekterede konsulenter, der peger på at test skal køre - ja, længere end 2 dage. Så at udråbe sig selv og sin test til vinder efter 2 dage - det mener jeg ikke er troværdigt.

For det andet: Samme test viser et skærmbillede fra VWO, ligesom jeg har gjort ovenfor, men antallet af konverteringer er visket ud. Hvorfor det? Er det mon fordi det ikke er særligt stort? Jeg mener ikke jeg kan bebrejdes for at få den mistanke. Hvis testen er lavet ordentligt, så gemmer der sig 2-300 konverteringer under det blur. Jeg vælger at tro det ikke er tilfældet.

Ok Surepoul hvad er din pointe?

Min pointe er: Jeg tror ikke på de 30% i den artikel. Jeg føler et indre behov for at sige til dig, at du heller ikke skal tro på det. I bedste fald er artiklen misvisende og kan skabe falske konklusioner, i værste fald er det jo bare en form for løgn.

Kildekritik trives rigtigt dårligt i sociale medier, blogs og på nettet generelt - så der for skal vi selv være kritiske. Derfor et par tommelfingerregler når du læser split-test cases:

- Er der adgang til data? Som minimum testens varighed, antal besøg/konverteringer, statistisk signifikans.

- Hold øje med hvad testen reelt måler. Tænk på om der er "støj" i resultatet, fx at der tales om den endelige konvertering, selvom testen kun måler antal klik på forsiden. Tænk over forholdet mellem den ændring der er foretaget og så den interaktion der er foregået. Kan man med rette antage at der er en direkte sammenhæng mellem de to? Hvis ikke, så kan resultatet være udtryk for noget helt andet.

- Er der noget viden om hvilken trafik der indgår i testen, er det fx al trafik eller kun organisk trafik, er det kun desktop eller også mobil? Eller endnu bedre, kan det påvises at resultatet holder, selv efter en segmentering af fx betalt og ikke betalt trafik?

Her er et par links til artikler der udpensler problematikken:

http://conversionxl.com/12-ab-split-testing-mistakes-i-see-businesses-make-all-the-time/ (se punkt 1)

http://blog.crazyegg.com/2015/07/14/split-testing-is-off/

I planlægningen af den kommende ConversionBoost konference om konverteringsoptimering, taler vi meget om at sikre kvaliteten på samme måde. Vi arbejder på, at oplægsholderne deler deres resultater og udfordrer dem på resultaternes kvalitet. Det er vigtigt for os alle sammen her på nettet, at vi hele tiden udfordrer vores test, vores resultater og hinanden på den kvalitet. For troværdige data og brugen af dem er en central del af konverteringsoptimering.

God fornøjelse med split-test og læselyst i det nye år.

Læs også


Kommentarer

Per Allerup  den 06-01-2016 kl. 19:10

Uh, den var da vist til mig.

Jeg sendte faktisk også et skærmdump til Morten med de uslørede tal, men han brugte så versionen med blur.

Jeg får lige Morten til at opdatere med tallene, så I ikke koger over derude. Det kan vi jo ikke have.

Men for en ordens skyld: VWO mener at der er 100% sandsynlighed for at varianten slår control, og konverteringstallene er V1: 188/629, C: 136/594.

Som det angives i blogindlægget er der tale om mikrokonverteringer.

Er kommentaren brugbar? 2 0
Martin Haun  den 06-01-2016 kl. 20:50

Jeg må erklære mig enig med Ole her. To dage er for lidt til at stole på at resultatet er korrekt, blot fordi VWO siger det.

Hvis der på to dage kan forekomme så mange konverteringer (mikro eller makro), så kan der være en bred vifte af faktorer der spiller ind, som kunne fase ud over tid.

Jeg har i flere tilfælde set både dag 1, 2 og 3 i split-tests stikke helt af på sites med mange besøgende, for efterfølgende, over tid, at ramme samme niveau som kontrollen eller f.eks. "kun" 3.8% over.

Er kommentaren brugbar? 3 0
Mikkel Brenøe-Jensen  den 06-01-2016 kl. 22:16

Glimrende artikel med fokus på netop validitet og signifikans, Ole!

Husk nu på, at statistisk signifikans ikke er det samme som validitet. Som Ton Wesseling, grundlæger af Testing Agency siger: ”..at stoppe en A/B splittest, når den opnår signifikans, er dødssynd nummer 1 i A/B-test land. 77% af A/A-test vil opnå signifikans på et givent tidspunkt.”

Signifikansniveauet eller i VWO's tilfælde ”chance to beat” er ikke et udtryk for hvor stor sandsynlighed, der er for at variationen er bedre end kontrollen, og den fortæller os heller ikke sandsynligheden for, at vi laver en fejl ved at vælge den vindende variation frem for kontrollen. Mats Gershoff har skrevet en særdeles grundig artikel omkring P-værdier her: http://conversionxl.com/pulling-back-curtain-p-values-learned-love-small-data/, og hvorfor et 100 % signifikant resultat eller ”100% chance to beat” godt kan gå hen og være den tabende på længere sigt.

Når testen kun køres over få dage, så får man ikke indsamlet nok viden omkring data og op/nedsving og dens kohorter. Som Martin også nævner det: ”Hvis der på to dage kan forekomme så mange konverteringer (mikro eller makro), så kan der være en bred vifte af faktorer der spiller ind, som kunne fase ud over tid”. Vi må huske på, at vi ikke på så kort tid kan komme omkring de forskellige typer af grupper af brugere, de såkaldte kohorter. Derfor er man nødsaget til at køre testen over alle typer af dage, og helst også alle tidspunkter på måneden, eftersom folk prioriterer og distribuerer forskelligt i forhold til penge og tid. På den måde får vi den mest repræsentative stikprøve af vores gennemsnitlige population/målgruppe.

Jeg læser desværre også tit disse splittest uden en egentlig solid bund af data bagved. Det er på ingen måde rettet imod dig Per, selvom du lige kom I klemme her i denne artikel, for det sker rigtig hyppigt.

Er kommentaren brugbar? 1 0
Ole Gregersen  den 07-01-2016 kl. 08:18

Per - tak for din kommentar og fordi du bidrager og deltager i diskussionen.

Mikkel - tak fordi du uddyber og præciserer. Det er noget kringlet noget med det statistik og jo mere jeg kigger på det, desto sværere synes jeg det er at lave split-test. Nu gik vi lige og troede at maskinen kunne fortælle hvad der var godt og skidt og så drukner det i tal-sovs, fejlkilder og støj. Det kan godt være lidt irriterende. Så meget desto mere skal vi hjælpe hinanden med at holde fokus og forstå hvilken betydning det har for vores test.

Er kommentaren brugbar? 2 0
Peter Sørensen  den 07-01-2016 kl. 08:57

som uerfaren splitester har jeg fået mange forskellige resultater uden at kunne sige exact hvorfor. Ofte bliver det gætterier og forskellige layout uden at kunne begrunde hvorfor man laver de ændringer.

Kaster man en terning 1000 gange vil 6 og 5 måske have en tendens til at blive valgt frem for de andre men kaster man den 1.000.000 gange vil det udligne sig mere men man kan stadig risikere at 6 har en højere tendens til at blive valgt. Kan man så konkludere at 6 i højere grad vil blive valgt frem for de andre eller er det bare tilfældigt?

Hvis testen gentages vil det så være 5 der er landet på fleste gange?

Jeg er absolut enig i at man kan teste og frasortere en dårlig landingpage fra en god men når forskellen bliver mindre end 10-20% så kan man ikke tage resultatet for gode vare og det vil udligne sig over tid hvis man er tålmodig nok.

Er kommentaren brugbar? 2 0
Dennis Damsager  den 07-01-2016 kl. 17:14

Peter - Det sidste du skriver er da ikke korrekt.

Splittesten på webshoppen er jo en test af brugeradfærd og ikke tilfældighed som dit eksempel med terningen hvor chancen for 1-6 jo ved hvert kast er den samme.

Chancen for at knap A eller B bliver brugt er ikke den samme hver gang, det afhænger jo netop af de faktorer du tester på, så selv et udsving på 5% kan være en "god vare". Men mængden af data er naturligvis udslagsgivende ifht. at vurdere hvordan du bruger resultatet.

Er kommentaren brugbar? 1 0
Peter Sørensen  den 07-01-2016 kl. 18:15

Det er rigtigt Dennis, tilfældighed og brugeradfærd er 2 forskellige ting men som uerfaren splittester ligner de to ting meget hinanden og ser du nok data over tid vil de opføre sig meget ens. Med mindre man er forsker på området vil jeg ikke kunne forklare hvorfor brugerne måske foretrækker en grøn knap fremfor en anden.

Er kommentaren brugbar? 1 0
Martin Haun  den 08-01-2016 kl. 08:14

Udfordringen med split-test er, at det på ingen måde er så nemt som f.eks. VWO og Optimizely gerne vil gøre det til.

Ja, det er nemt at skift farven eller teksten på en knap, men at analysere resultatet er straks mere kompliceret.

For det første, er der det med at starte og stoppe testen samme dag i ugen (og samme tidspunkt). Dette er der endda også faldgruber i.

Dernæst skal man dykke ned i sine trafikkilder for at se på adfærdsforskelle. Derefter kan man kigge på fordelingen af mobil/tablet/desktop og for at det ikke skal være nok, kan man herefter igen segmentere på browsertype og browserversion.

Jeg har f.eks. set tests hvor Optimizely udråbte kontrollen som vinder overordnet set, men hvor man ved segmentering kunne se at 'repeat visitors' og IE 9-11 brugere i variationen lå 30% over kontrollen i konverteringsrate. Hvorfor så det? Ny test...

Når man begynder at begå sig i disse data, så dukker der pludselig også noget op omkring multi-variant tests og falske positive (ved 95% statistisk signifikans er der stadig 5% fejlmargin. Når det ganges op med antal variationer, stiger chancen for falsk positiv).

Se mere her om emnet og Googles 41 shades of blue test m.m. her:

http://fast.wistia.net/embed/iframe/k79a22y65d?videoFoam=true

Er kommentaren brugbar? 1 0
Ole Gregersen  den 08-01-2016 kl. 08:17

@Peter - tak for dine kommentarer. Jeg synes heller ikke det er helt korrekt at sammenligne med tilfældighed eller udfald på en terning. I gør beregningen det at den undersøger hvor gange resultatet bliver 0 eller 1 - om brugeren konverterer eller ej. Konverterer brugeren 50% af gangene bliver konverteringsraten 50% på den givne variation. Men fordi det vi i virkeligheden spørger om i split-testen er "hvad er sandsynligheden for at brugeren konverterer næste gang", så lægger vi et statistisk syn ned over de tal. Vi bruger så en standard normalfordeling til at vurdere sandsynligheden (den her omvendte klokkeform). Jo flere gange vi tester og for 1 eller 0, desto større er den statistiske sandsynlighed for at konverteringraten faktisk vedbliver 50%. Laver vi den beregning for begge variationer får vi noget der grafisk ser således ud: http://oleg.dk/uploads/bells.png - hvor jeg har indsat tallene fra Per Allerups test. Lidt populært sagt, så kigger testværktøjet på om de to omvendte klokker overlapper. Når det overlap er lille nok, så siger man at der statistisk er stor nok sikkerhed  - men altså på at den ene konverteringsrate er X% større end den anden. Selvom begge variationer stadig har usikkerhed og dermed kun statistisk har den konverteringsrate der angives. Værktøjet kan du selv prøve her: http://www.peakconversion.com/2012/02/ab-split-test-graphical-calculator/

Så når du oplever test, hvor at resultaterne for dine variationer er meget ens, er det altså ikke tilfældigheder, ej heller mener jeg man kan sige at de altid vil udlignes over tid. Det er snarere et udtryk for at de to (eller flere) konverteringsrater simpelhen er meget ens og der for statistisk ikke kan siges at være forskellige nok til at fx VWO vil kalde den ene vinder.

Er kommentaren brugbar? 1 0
Ole Gregersen  den 08-01-2016 kl. 08:22

Sorry - det er selvfølgelig ikke en omvendt klokkeform, men bare en klokkeform - my bad...

Er kommentaren brugbar? 1 0
Mikkel  den 14-01-2016 kl. 06:48

Hvorfor har du optimeret efter micro conversions og ikke macro? Altså, hvor mange der FAKTISK signede op, i stedet for blot klikkede. Kender godt svaret, resultatet kunne findes hurtigere? Men eksperterne er uenige med dig i, at det er korrekt at teste sådan.

http://conversionxl.com/should-you-optimize-for-micro-conversions/

Hej Mikkel. Du har til dels ret og så alligevel ikke. Vi målte skam både på klik på elementet, sidevisninger af den URL man ender på og på den afsluttende konvertering. Du har ret i at resultatet for den endelige konvertering ikke var statistisk validt da vi valgte af afslutte testen (men som du ser har vi bekræftet løftet andetsteds), så mere tid kunne måske have hjulpet. Dog skal man også huske, at der er mange andre ting der påvirker antallet af makro-konverteringer, hvorfor det tal ikke alene kan tilskrives den ændring jeg testede på. Så det mest korrekte er stadig at forholde sig skarpt til lige præcis det testen målte på, nemlig om flere trykkede på knappen når de så en variant.  /Ole

Er kommentaren brugbar? 1 0
 

Om denne blog


Få besked


Om

Ole Gregersen
Specialist i usability og konverteringsoptimering



Jeg er optaget af hvordan virksomheder konverterer flere besøgende til kunder på deres websites og digitale platforme. Min baggrund er indenfor usability og UX, men jeg arbejder i dag med alt det der skaber flere konverteringer online. Ud over mine virksomheder Optuner.dk er jeg også medarrangør af ConversionBoost, den årlige konference om konverteringsoptimering. Jeg har også skrevet en lærebog om usability, har startet UXbookClub, DUXFOR.dk og underviser i konverteringsoptimering hos UXmentor.dk

Til dagligt hjælper jeg virksomheder med at implementere konverteringsoptimering, med alt fra den strategiske optimeringsproces til det daglige praktiske arbejde.

Her på bloggen vil jeg både tage de oplagte “sådan gør du” råd, men også prøve at komme ud i krogene af alle de spændende fagligheder og detaljer som konverteringsoptimering består af. For eksempel split-test, web-analytics, psykologi, neurovidenskab, usability og salg/marketing.

Læs mere om Ole på www.oleg.dk eller Optuner.dk