zaterdag 2 februari 2013

De zin en onzin van testen: Significantie

Goed. Mijn vorige post over relevantie heeft de aandacht getrokken. Dat motiveert om verder te gaan. Helaas is het wel een tekst muur geworden.


Significantie: De mate waarin resultaten van elkaar verschillen of de Wet van de Paaseieren

Theorie moet wel leuk blijven, dus ik begin met een voorbeeld uit de praktijk. Ik kies er expres een waarvan iedereen boven de 16 vooraf inziet dat de relevantie 0,0 is, zodat we goed het verbijsterende verschil zullen zien tussen relevant en significant.

Stel, het is 1960 en je bent een nieuwsgierig Deens jongetje van een jaar of 10. Je hebt van je vader te horen gekregen dat baby’s worden gebracht door de ooievaar. Je gelooft daar echt in, maar je wordt uitgelachen door je vriendjes, alleen die verdommen het om te vertellen hoe het echt zit.

Om aan te tonen dat je gelijk hebt, bedenk je een mooi experiment: als er meer ooievaars op een bepaalde plek zijn, dan moeten er logischerwijs op die plek ook meer baby’s worden gebracht. Ook al ben je wat naïef, je bent wel geniaal en dus ga je aan de slag. Je besluit om praktische redenen dat je onderzoek beperkt blijft tot Denemarken. Dat moet groot genoeg zijn, er zijn daar flink wat ooievaars anno 1960, en ook flink wat mensen. Papa en mama zullen je rond rijden in hun gloednieuwe Volvo PV544 ‘Kattenrug’ en ze hebben net een telefoon.

Je gaat twee dingen doen:
1-Alle geboortecijfers per 1000 inwoners opvragen van alle Deense gemeentes. Je realiseert je dat misschien niet alle babytjes geregistreerd worden, maar je vader overtuigt je dat Denemarken een uitstekende administratie heeft. Illegalen zijn er dan nog niet, dus dat scheelt. Langzaam druppelen alle uiterst betrouwbare gegevens binnen.
2-Ooievaars tellen in alle gemeentes van Denemarken.

Al snel kom je erachter dat er ’s winters helemaal geen ooievaars zijn en dat komt goed uit, want door de sneeuw rond rijden is niets. Als het voorjaar is, kan je eindelijk echt aan de slag. Ooievaars tellen blijkt een rot klus. Alleen al in je eigen gemeente tel je de ene dag 3 ooievaars en de andere dag 10. Je hebt hulptroepen nodig. Allemaal mensen in Denemarken gaan dag in dag uit ooievaars voor je tellen. Hieronder de resultaten van een half jaar elke 2 weken tellen in je gemeente door 4 buurmannen. Gelukkig ben je elke dag op de fiets door je gemeente heen gereden, heb je alle ooievaars in de omgeving van een zendertje voorzien en heb je een perfecte ooievaar-tel-radar (je bent echt geniaal). Daarom weet je in je eigen gemeente de Juiste Waarde van het aantal ooievaars: de zwarte stippellijn.
De linker buurman bakt er een potje van: de getallen vliegen alle kanten op en ook het gemiddelde (blauwe streep) klopt niet. Die maak je rood want die buurman is bijna blind en kletst maar wat. De rechterbuurman is het best, die maak je groen. Zijn gemiddelde is goed en de spreiding tussen de getallen is ook klein. De twee middelsten zetten je aan het twijfelen. De een heeft een kleine spreiding tussen de getallen, maar hij meet telkens teveel ooievaars. Hij is wel precies, maar niet accuraat. Dat kan kloppen, want die buurman is een serieuze vent, maar wel scheel en telt de ooievaars dubbel. De ander heeft een grote spreiding, maar het gemiddelde klopt wel. Hij is niet precies, maar wel accuraat. Die buurman blijkt een sloddervos met prima ogen, maar telt soms teveel (1,2,4,5..) en soms te weinig (1,2,3,3,…).

Je besluit dat alle mensen die je helpen eerst een oogtest moeten doorstaan. Sloddervossen laat je gewoon vaak genoeg meten, en dan komen ze best met een aardig resultaat.

Na maanden werk heb je eindelijk alle data binnen. En dan zet je het geboortecijfer uit tegen het aantal ooievaarpaartjes. Je krijgt een prachtige correlatie. De kans dat er een verband is, is maar liefst 99,992%: zeer significant! Je rent naar je vriendjes en roept: ‘zie je nou wel! De ooievaar brengt de baby’s!’

Helaas is er geen direct causaal verband en dus is de studie niet relevant, behalve dan als les om onderzoekers en vooral statistici wat bescheidenheid bij te brengen. De originele studie uit Denemarken kon ik niet vinden op Internet, maar deze is net zo leuk:

http://www.uni-marburg.de/fb21/motologie/mitarbeiter_seiten/ls/storks.pdf

Het verband zit waarschijnlijk in het verschil tussen platteland en stad: in een verstedelijkte omgeving zijn minder ooievaars en is het geboortecijfer (per 1000 inwoners) veel lager.

Nu kan je hier hartelijk om lachen, maar in de praktijk zijn alle onderzoekers eigenlijk 10-jarige Deense jongetjes. We weten gewoon niet hoe het zit (anders hoeven we het immers niet te onderzoeken) en met vallen en opstaan komen we steeds een stapje verder. Soms maken we koeien van fouten. Zie:

http://www.psmag.com/science-environment/storks-vaccines-and-causation-10195/

waarin de stelling wordt ontkracht dat een mazelen vaccin de oorzaak van autisme zou zijn. Wederom een significant effect, maar zonder causaal verband en dus irrelevant.

Terug naar de meetresultaten van de buurmannen. Uiteraard is er een significant verschil tussen de resultaten van de schele en de goede buurman. Ook tussen de blinde en de schele zijn duidelijke verschillen. Maar verder? Dan hebben we statistiek nodig en dat valt buiten deze blog. Maw daar beginnen we liever niet aan, op 1 opmerking na: als je kwantitieve tests doet of bekijkt, zal je toch minstens moeten weten hoe je een gemiddelde en een standaard deviatie uitrekent (een maat voor de afwijking van het gemiddelde). Dat valt eenvoudig elders te vinden. Jammer dat dit zelden of nooit in een consumententest naar voren komt.

Om zonder veel statistiek toch verder te komen in de wereld van de significantie een paar stellingen.

Ten eerste. Als je geen harde theorie hebt die een bepaald verband of verschil onderbouwt, dan kan je maar beter snel zorgen dat die er komt, met data en al erbij, want anders begeef je je op glad ijs. Vage ideeën kunnen we allemaal verzinnen (dat moet, ook om verrassende resultaten te kunnen verklaren), maar de kunst is om idee om te zetten in bewijs. Dan pas zijn we echt meer te weten gekomen. Ik hoop dat bovenstaande voorbeelden genoeg zijn ter onderbouwing.

Ten tweede. Als je statistiek nodig hebt om een significant verschil aan te tonen, dan moet je nadenken over de relevantie van het verschil. Kijk maar naar de grafiek in de referentie. Leuk dat er zo’n goede correlatie is tussen ooievaars en geboortecijfer, maar de plaat waar de trend uitgehaald wordt is gewoon een schot hagel in plaats van een trend. Dan kan je er wel een statistisch berekende trend lijn doorheen trekken, maar dat wordt hoe dan ook statistiek van een heel andere trend: kleine leugens, grote leugens en statistiek.

1 meting is geen meting, 2 metingen is een halve meting, 3 metingen is een Paas meting!
Zonder herhaling is het niet mogelijk om te bepalen of je buurman slordig (niet precies) danwel scheel (niet accuraat) is. Al is je test nog zo relevant, dan heb je gewoon maar 1 meting. Omdat er ALTIJD spreiding zit in metingen, kan het puur toeval zijn dat die ene meting afwijkt van je verwachting. Helaas kan het dus ook toeval zijn dat die ene meting je verwachting bevestigt. Als je dan 2 enkelvoudige metingen met elkaar gaat zitten vergelijken trek je snel verkeerde conclusies. Je weet immers niet de variatie binnen je metingen, laat staan dat je iets weet over de verschillen tussen metingen.

Hoe vaker je meet bij 1 conditie, hoe beter het wordt. Maar ja, je hebt ook andere dingen te doen. Voor mezelf heb ik een simpel hulpmiddeltje:  



De Wet van de Paaseieren

Als ik drie metingen doe op 1 conditie (bijv 3x ooievaars tellen in Amsterdam) en ik doe er drie op een andere conditie (bijv 3x tellen in Delden), dan durf ik met aardige zekerheid te zeggen dat er significante verschillen zijn als ALLE 3 metingen uit Amsterdam duidelijk hoger zijn dan ALLE 3 metingen uit Delden (of andersom natuurlijk). Mijn precisie is dan goed genoeg. Als ik overlap vind, dan is er of een probleem met de precisie van de meting, of er is gewoon nauwelijks verschil. Er kan best reden zijn om het zo te laten en niet verder te analyseren.

Of ik accuraat ben, weet ik pas als ik met andere methodes meer informatie heb gekregen over de Juiste Waarde uit de werkelijkheid. Daar is validatie voor nodig. Helaas kom je niet altijd achter de Juiste Waarde.

Er zijn algemene methodes om tests te valideren, ook als er geen Juiste Waarde kan worden verkregen. Waarover meer in een volgende post. Tot slot, er zijn ook algemene methodes om precisie en accuratesse te verbeteren. Ook die komen aan bod in een volgende post.

2 opmerkingen:

  1. Naar aanleiding van een reactie van jou op mijn blog stuur ik je deze link:
    http://www.ligfiets.net/event/3070/midwintertocht-lol.html
    En deze:
    http://www.ligfiets.net/club/lol.html

    Iedere eerste zondag van de maand gaan we met #LOL (Lekker Ongebonden Liggen=een ligfietsclub in Zutphen en de verre omtrek) op stap. Deelname is geheel vrijblijvend. Deelnemers: tussen 2 en 12 (tot nu toe).

    BeantwoordenVerwijderen
  2. Geïnspireerd door jouw rubriek "De zin en onzin van testen", heb ik op mijn blog www.bocycle.nl een bericht geplaatst over de relevantie van de speciale relativiteitstheorie van Einstein voor ligfietsende aardklootbewoners.

    BeantwoordenVerwijderen