Omdat ik denk dat die beroepsdeformaties anderen misschien ook kunnen
helpen met te bepalen waar we nou helemaal mee bezig zijn, heb ik deze post
geschreven. Lastig, want ik wil geen jip-en-janneke-taal (een kleine ergernis
van mij: nee meneer de politicus, ik ben niet te dom om jou te begrijpen, dus
vertel nou maar gewoon waar het om gaat), maar het moet wel begrijpelijk
blijven voor iemand die toevallig nooit van significantie heeft gehoord.
Eerst maar een paar definities:
Relevantie – de mate waarin een test iets vertelt over iets wat we willen
weten van de werkelijkheid.
Significantie – de mate waarin (groepen van) testresultaten van elkaar
verschillen. Alleen als het relevante testen zijn, vertelt dit iets over de
mate waarin er in werkelijkheid verschillen zijn tussen dingen.
Validatie – Een serie proeven waarmee we erachter proberen te komen of een
testopzet relevant is en of de test significante verschillen kan laten zien. Dit
is simpelweg een kwestie van op een slimme manier heel veel testen uitvoeren waarvan
je weet wat de uitkomst moet zijn.
Het verschil tussen test en werkelijkheid
Allereerst is er altijd een verschil tussen de werkelijkheid en een meting.
Dit is wetenschapsfilosofie, maar het komt er op neer dat we nooit precies
zullen weten wat de werkelijkheid is.
Sommige mensen denken daarom dat we eigenlijk niets weten van de werkelijkheid
en dat alles relatief is. Die mensen raad ik aan om voortaan water in plaats
van benzine te tanken in hun auto, dat is veel goedkoper en het maakt toch niet uit.
Ook al zullen we nooit helemaal achter de werkelijkheid komen, wel kunnen we proberen om met theoretische modellen en metingen er steeds meer achter te
komen hoe het zit. Zo kunnen we de werkelijkheid
steeds beter begrijpen. Mooi voorbeeld uit de natuurkunde: Newton bedacht de
mechanica en gedurende 200 jaar hadden mensen het idee dat we de werkelijkheid
volledig konden doorgronden. Toen kwam Einstein met de relativiteitstheorie en
o.a. Schroedinger met de quantum mechanica. Nu zijn we nog steeds bezig om
die theorieën beter te begrijpen ten opzichte van de werkelijkheid. Eigenlijk
begrijpen we de werkelijkheid nu veel beter dan vroeger, maar het blijft verwarrend
dat tijd geen tijd meer is en dat God blijkt te dobbelen (Einstein geloofde niet
in de quantum mechanica, waarin toeval een grote rol speelt. ‘God dobbelt niet’
vond hij. Hij had ongelijk).
Relevantie: Meten wat je wilt Weten
Het verschil tussen test en werkelijkheid bepaalt de relevantie van een
test. Hoe groter het verschil, hoe minder relevant de test. Dat heb ik geprobeerd
duidelijk te maken in onderstaand plaatje en het voorbeeld van de
zwangerschapstest.
Stel, je (of je vriendin/vrouw) doet een test om te kijken of je zwanger
bent. De test-strip kleurt wel of niet blauw en kan daarmee aangeven positief
(wel zwanger) of negatief (niet). Dat kan 4 situaties opleveren, zie plaatje. De test doet
het goed (groen) en geeft wel (true positive) of niet (true negative) zwanger zoals je
dat ook daadwerkelijk wel/niet bent. De test is dan relevant (je hebt er wat aan) en
mogelijk ook valide (hij geeft telkens het juiste antwoord bij iedereen, al zou
dat in dit ene geval nog toeval kunnen zijn geweest).
Maar de test kan natuurlijk ook mislukken (rood): vals negatief (je bent wel
zwanger, maar de test kleurt niet aan) of vals positief (je bent niet zwanger,
maar de test kleurt wel). De test is dan niet valide. Of dat komt omdat hij
niet relevant is of niet significant kan makkelijker uitgelegd worden in een later
voorbeeld.
Nu zijn er ook situaties waarbij het antwoord niet aan/uit is, maar een
getal. Dat maakt een en ander wat ingewikkelder, maar een hoop bijft toch
hetzelfde.
Dan krijgen we niet 2 groene en 2 rode vakjes, maar de diagonaal (grijs in
de figuur), waar de test het hetzelfde getal geeft als de werkelijkheid: de Juiste Waarde. Nu
geeft de test nooit precies de Juiste Waarde, en daarom moeten we
een gebied afbakenen waarin we tevreden zijn met het resultaat (groen). Ook is
er een gebied waarin we niet helemaal tevreden zijn, maar waarin de resultaten
nog wel enigszins bruikbaar zijn (geel). De rode gebieden zijn valse
resultaten; hier geeft de test resultaten die niet meer relevant zijn. De test
zegt immers niets meer over de werkelijkheid.
Vaak is de wereld niet zo zwart-wit. Een test geeft vaak in een bepaald
gebied zeer relevante resultaten, maar daarbuiten wordt hij volkomen waardeloos.
Bijvoorbeeld de blauwe lijn is in het midden prima, maar aan de uiteinden
slecht.
Ik kan niet benadrukken hoe belangrijk relevantie is. Mensen meten er vaak
maar op los, gewoon omdat er gemeten kan worden. Maar wat vertelt het nu
eigenlijk?! Anderen zijn er dan als de kippen bij om te wijzen op onderdelen
van de test die op irrelevante resultaten duiden. Zij zien dan vaak het
relevante gebied van de test over het hoofd. Zo ontstaat er dan een welles/nietes
discussie waarin we geen stap verder komen. Hoe belangrijk relevantie is, wil
ik graag laten zien met een voorbeeld uit farmaceutische ontwikkeling.
Op elk nieuw ontwikkeld medicijn dat de markt bereikt, sneuvelen 49 999 medicijnen
tijdens de ontwikkeling omdat ze niet veilig zijn, niet werken, niet beter
werken dan bestaande medicijnen of omdat het bedrijf er gewoon geen brood in
ziet.
Stap
|
Testen in laboratorium
|
Testen in dieren
|
Testen in gezonde vrijwilligers
|
Testen in kleine groep patiënten
|
Testen in grote groep patiënten
|
Toegelaten op de markt
|
Aantal geteste medicijnen
|
50 000
45 000
vallen af
|
5 000
4 500
vallen af
|
500
450
vallen af
|
50
45
vallen af
|
5
4 vallen af
|
1
|
De relevantie van laboratiumtesten is dus heel slecht. 90% van de medicijnen
wordt in dit vroege stadium afgekeurd (daar moeten dus ook goede medicijnen
tussen zitten: vals negatief), maar 99.98% van de medicijnen die dit stadium
overleeft, blijkt later niet goed genoeg voor de markt (vals positief). Bij elke volgende
stap neemt de relevantie toe, maar zelfs tijdens tijdens de laatste, geldverslindende
studies in grote groepen patiënten moet nog 80% van de medicijnen worden afgekeurd.
Al die voorgaande testen bleken dus niet relevant genoeg in 4 van de 5 gevallen. Zucht. Al met al kost het tegenwoordig gemiddeld 1,2 miljard dollar en 15 jaar om een nieuw
medicijn te ontwikkelen. Kan dit beter? Vast wel, maar industrie en overheid
weten op dit moment niet goed hoe.
Volgende keer meer over significantie.