donderdag 31 januari 2013

De zin en onzin van testen: Relevantie

In de blog-wereld over velomobieleren zijn een paar mensen, waaronder ikzelf, die graag dingen testen en daar verhaaltjes over schrijven. Dit is altijd goed bedoeld, bijv om anderen te helpen met de aanschaf van producten en/of om beter inzicht te krijgen. Omdat ik een nogal nieuwsgierig typetje ben, vind ik het ook gewoon leuk. Daarbij heb ik als R&D-man wel last van wat beroepsdeformaties.

Omdat ik denk dat die beroepsdeformaties anderen misschien ook kunnen helpen met te bepalen waar we nou helemaal mee bezig zijn, heb ik deze post geschreven. Lastig, want ik wil geen jip-en-janneke-taal (een kleine ergernis van mij: nee meneer de politicus, ik ben niet te dom om jou te begrijpen, dus vertel nou maar gewoon waar het om gaat), maar het moet wel begrijpelijk blijven voor iemand die toevallig nooit van significantie heeft gehoord.


Eerst maar een paar definities:

Relevantie – de mate waarin een test iets vertelt over iets wat we willen weten van de werkelijkheid.

Significantie – de mate waarin (groepen van) testresultaten van elkaar verschillen. Alleen als het relevante testen zijn, vertelt dit iets over de mate waarin er in werkelijkheid verschillen zijn tussen dingen.

Validatie – Een serie proeven waarmee we erachter proberen te komen of een testopzet relevant is en of de test significante verschillen kan laten zien. Dit is simpelweg een kwestie van op een slimme manier heel veel testen uitvoeren waarvan je weet wat de uitkomst moet zijn.
 

Het verschil tussen test en werkelijkheid

Allereerst is er altijd een verschil tussen de werkelijkheid en een meting. Dit is wetenschapsfilosofie, maar het komt er op neer dat we nooit precies zullen weten wat de werkelijkheid is.

Sommige mensen denken daarom dat we eigenlijk niets weten van de werkelijkheid en dat alles relatief is. Die mensen raad ik aan om voortaan water in plaats van benzine te tanken in hun auto, dat is veel goedkoper en het maakt toch niet uit.

Ook al zullen we nooit helemaal achter de werkelijkheid komen, wel kunnen we proberen om met theoretische modellen en metingen er steeds meer achter te komen hoe het zit. Zo kunnen we de werkelijkheid steeds beter begrijpen. Mooi voorbeeld uit de natuurkunde: Newton bedacht de mechanica en gedurende 200 jaar hadden mensen het idee dat we de werkelijkheid volledig konden doorgronden. Toen kwam Einstein met de relativiteitstheorie en o.a. Schroedinger met de quantum mechanica. Nu zijn we nog steeds bezig om die theorieën beter te begrijpen ten opzichte van de werkelijkheid. Eigenlijk begrijpen we de werkelijkheid nu veel beter dan vroeger, maar het blijft verwarrend dat tijd geen tijd meer is en dat God blijkt te dobbelen (Einstein geloofde niet in de quantum mechanica, waarin toeval een grote rol speelt. ‘God dobbelt niet’ vond hij. Hij had ongelijk).


Relevantie: Meten wat je wilt Weten

Het verschil tussen test en werkelijkheid bepaalt de relevantie van een test. Hoe groter het verschil, hoe minder relevant de test. Dat heb ik geprobeerd duidelijk te maken in onderstaand plaatje en het voorbeeld van de zwangerschapstest.
Stel, je (of je vriendin/vrouw) doet een test om te kijken of je zwanger bent. De test-strip kleurt wel of niet blauw en kan daarmee aangeven positief (wel zwanger) of negatief (niet). Dat kan 4 situaties opleveren, zie plaatje. De test doet het goed (groen) en geeft wel (true positive) of niet (true negative) zwanger zoals je dat ook daadwerkelijk wel/niet bent. De test is dan relevant (je hebt er wat aan) en mogelijk ook valide (hij geeft telkens het juiste antwoord bij iedereen, al zou dat in dit ene geval nog toeval kunnen zijn geweest).

Maar de test kan natuurlijk ook mislukken (rood): vals negatief (je bent wel zwanger, maar de test kleurt niet aan) of vals positief (je bent niet zwanger, maar de test kleurt wel). De test is dan niet valide. Of dat komt omdat hij niet relevant is of niet significant kan makkelijker uitgelegd worden in een later voorbeeld.

Nu zijn er ook situaties waarbij het antwoord niet aan/uit is, maar een getal. Dat maakt een en ander wat ingewikkelder, maar een hoop bijft toch hetzelfde.

Dan krijgen we niet 2 groene en 2 rode vakjes, maar de diagonaal (grijs in de figuur), waar de test het hetzelfde getal geeft als de werkelijkheid: de Juiste Waarde. Nu geeft de test nooit precies de Juiste Waarde, en daarom moeten we een gebied afbakenen waarin we tevreden zijn met het resultaat (groen). Ook is er een gebied waarin we niet helemaal tevreden zijn, maar waarin de resultaten nog wel enigszins bruikbaar zijn (geel). De rode gebieden zijn valse resultaten; hier geeft de test resultaten die niet meer relevant zijn. De test zegt immers niets meer over de werkelijkheid.

Vaak is de wereld niet zo zwart-wit. Een test geeft vaak in een bepaald gebied zeer relevante resultaten, maar daarbuiten wordt hij volkomen waardeloos. Bijvoorbeeld de blauwe lijn is in het midden prima, maar aan de uiteinden slecht.

Ik kan niet benadrukken hoe belangrijk relevantie is. Mensen meten er vaak maar op los, gewoon omdat er gemeten kan worden. Maar wat vertelt het nu eigenlijk?! Anderen zijn er dan als de kippen bij om te wijzen op onderdelen van de test die op irrelevante resultaten duiden. Zij zien dan vaak het relevante gebied van de test over het hoofd. Zo ontstaat er dan een welles/nietes discussie waarin we geen stap verder komen. Hoe belangrijk relevantie is, wil ik graag laten zien met een voorbeeld uit farmaceutische ontwikkeling.

Op elk nieuw ontwikkeld medicijn dat de markt bereikt, sneuvelen 49 999 medicijnen tijdens de ontwikkeling omdat ze niet veilig zijn, niet werken, niet beter werken dan bestaande medicijnen of omdat het bedrijf er gewoon geen brood in ziet.

Stap
Testen in laboratorium
Testen in dieren
Testen in gezonde vrijwilligers
Testen in kleine groep patiënten
Testen in grote groep patiënten
Toegelaten op de markt
Aantal geteste medicijnen
50 000
45 000
vallen af
5 000
4 500
vallen af
500
450
vallen af
50
45
vallen af
5
4 vallen af
1

De relevantie van laboratiumtesten is dus heel slecht. 90% van de medicijnen wordt in dit vroege stadium afgekeurd (daar moeten dus ook goede medicijnen tussen zitten: vals negatief), maar 99.98% van de medicijnen die dit stadium overleeft, blijkt later niet goed genoeg voor de markt (vals positief). Bij elke volgende stap neemt de relevantie toe, maar zelfs tijdens tijdens de laatste, geldverslindende studies in grote groepen patiënten moet nog 80% van de medicijnen worden afgekeurd. Al die voorgaande testen bleken dus niet relevant genoeg in 4 van de 5 gevallen. Zucht. Al met al kost het tegenwoordig gemiddeld 1,2 miljard dollar en 15 jaar om een nieuw medicijn te ontwikkelen. Kan dit beter? Vast wel, maar industrie en overheid weten op dit moment niet goed hoe. 

Volgende keer meer over significantie.

 

 

17 opmerkingen:

  1. ik vind het in ieder geval een relevant stukje
    (al is het wel wat veel theorie zo op de vroege ochtend ;-)

    BeantwoordenVerwijderen
  2. Thanks, neem gerust nog een kop koffie, het was geschreven op de late avond, dus....

    BeantwoordenVerwijderen
  3. Een leuk stukje, en je hebt gelijk, een auto rijdt niet op water. :-))
    Maar je hebt ongelijk in de stelling dat God dobbelt, voor de mens lijkt het soms zo. Maar in werkelijkheid is het niet zo, lees zijn handleiding maar, de Bijbel.

    BeantwoordenVerwijderen
  4. 400 jaar na de godsdienstoorlogen is het nog steeds gevaarlijk om discussies over de bijbel te beginnen, dus ik hou het er maar op dat dat off-topic is.

    De opmerking van Einstein verwees naar het dobbelen van alle kleine deeltjes, bijv electronen. Daarvan is bewezen dat ze het doen, en nog massaal ook. Einstein kon niet geloven dat God de wereld zo geschapen zou hebben.

    BeantwoordenVerwijderen
  5. Proficiat, goed stuk, zeer duidelijk en verhelderend. Discussies over geloof kunnen we inderdaad beter vermijden op deze (fiets)blogs, iedereen heeft daar een eigen overtuiging over, dat soort discussies levert nooit een win-win situatie op.
    Ik kijk in elk geval uit naar het vervolg, heel interessant!

    Groeten, Adri.

    BeantwoordenVerwijderen
  6. Mensen dobbelen in ieder geval wel. Of het nu plannen zijn een krankzinnige 100 megaton atoombom te laten ontploffen zonder dat je weet wat de effecten daarvan kunnen zijn ( zoals bijv alle zuurstof van de atmosfeer in een kettingreactie in brand steken wat men toen vreesde ) of een nog sterkere deeltjesversneller in bedrijf nemen waarvan je echt niet de resulterende effecten kent maar enkel theoretisch vermoed, of toch maar Ebola een in lucht besmettelijk virus maakt in streng beveiligde geheime labaratoria want de vijand doet dat immers ook.

    Opvallend genoeg leven we nog.

    Het is eigenlijk ook wel fijn een heleboel dingen niet te weten. Moet ik weten dat ondanks bovenbeschrevene heel veel medicijnen nog steeds niet op ieder mens goed werken omdat neutraliserende enzymen in het lichaam voor iedereen weer anders werken ? Dat het placebo effect voor een groot deel van de medicijnen de grootste bijdrage aan de behandeling levert ?

    Zelfs met relevantie zijn sommige dingen nog steeds niet relevant.









    BeantwoordenVerwijderen
  7. ...en zo moddert de natuur voort (morgen valt er een meteoriet op aarde) en de mensheid met haar. Ik moest nog iets cynischer worden, Quezzzt, en toen zag ik de schoonheid er van in. Ondanks alles leven we. Ik geniet daarvan zolang het duurt!

    Bij het niet-willen-weten scheiden onze wegen. Ik heb van de appel van de boom der kennis gegeten...om toch nog 1 keer naar de bijbel te verwijzen.

    Ik bekijk het liever omgekeerd vwb placebo's. Placebo's zijn de mooiste medicijnen als ze helpen: geen bijwerkingen mogelijk. Els Borst: ze werken niet, maar helpen wel. Dokters zijn soms nog steeds sjamanen in een witte jas.

    Tot slot, om weer terug te keren naar het topic: voor fabrikant, apotheker, dokter, patient en wetenschapper is de relevantie van een medicijn telkens anders. Soms helaas maar waar.

    BeantwoordenVerwijderen
  8. Magic Bullet,
    Helder stuk. Ik ben al jaren bezig om de relevantie van mijn proeven te verbeteren. Eerst reed ik met de Quest van een viaduct. Wind, wegdek, sporing, sturen en temperatuur vertroebelden de resultaten. Vervolgens met het meetplatform en meetwagen buiten. Ook hier waren weer wind, wegdek en temperatuur boosdoeners. Vervolgens met de meetwagen naar binnen. Wind en temperatuur waren geen spelbrekers meer, het niet relevante wegdek wel.
    Daarna de pendel. Wind en temperatuur zijn geen nadelige factoren meer. De gladde tegelvloer weer wel.
    Tenslotte de pendel op asfaltgoten. Nu zijn wind, temperatuur en wegdek allemaal onder controle.
    Het lijkt erop dat de pendel nu relavante uitkomsten oplevert.
    Dat zijn ook de fabrikanten met me eens. Ik ga nu in opdracht van een grote (race) fietsbandenfabrikant 28 inch racefiets banden testen. Ook bandenfabrikanten realiseren zich donders goed dat een rollenbank alleen relevante resultaten oplevert als je banden test die qua diameter, breedte, constructie en druk vrijwel gelijk zijn.
    Groeten,
    Wim

    BeantwoordenVerwijderen
  9. Beste Wim,
    Thanks. De clou met je pendel is dat je heel veel aan significantie hebt gewonnen tov uitrollen ed, maar dat dat mogelijk ten koste van de relevantie is gegaan (bijv echt wegdek is dan wel specifiek, maar ook erg relevant=dicht bij de werkelijkheid). Daarom moet de pendelmethode (als elke methode) gevalideerd worden op zowel relevantie als significantie, als je tenminste echt een sterk verhaal wilt hebben. En ik vermoed dat je dat graag wilt.

    BeantwoordenVerwijderen
  10. "METEN MET TWEE MATEN IS LEUKER DAN ALLEEN"

    een stelling waar ik ineens aan moest denken (afkomstig uit "Het paard van Damocles" - een verzameling aforismen van Delftse promovendi)

    Nog een andere stelling uit dit boekje (weliswaar niet passend bij dit onderwerp maar wel bij een fietsblog)

    "FIETSERS VERONGELUKKEN GEZONDER DAN OVERIGE WEGGEBRUIKERS"


    ik wens iedereen alvast een prettig weekend

    groet Marcus
    (diebeginfebruarinogsteedszittewachtenopzijnjanuariquest :-(

    BeantwoordenVerwijderen
    Reacties
    1. Het lijkt er inderdaad op dat de aflevering van Questen enigszins stagneert. Was ik dus net op tijd :)

      Verwijderen
  11. Idd een pendel is geen velomobiel, ook niet als je het gewicht en wieldruk ervan nabootst en het daarmee test op echt asfalt van een vastgestelde temperatuur ;-)

    Alleen als je de pendelresultaten optelt bij uitkomsten van rolproeven met een velomobiel ga je de realiteit benaderen.

    Dat wordt een indoor asfalt hellingbaan Wim....oh nee, zonder wind en temperatuursverschillen ook weer geen relevant ;-)



    BeantwoordenVerwijderen
  12. Magic Bullit,
    Significant is dat bij normale temperaturen, met vorst heb ik met andere methoden niet gemeten, de verschillen in pendeltijd procentueel overeenkomen met de verschillen in uitrolafstand.
    We moeten het niet ingewikkelder maken dan nodig. Een band die langer pendelt heeft een lagere rolweerstand. En ik meet niet meer dan de onderlinge verschillen tussen banden.
    Feit is dat wetenschappelijk verantwoord geachte methoden, in casu de rollenbank, in de praktijk niet relevant blijken te zijn.
    Op elke methode is wat af te dingen. Als ik bijv. een fijnere asfaltmix had gekozen zouden er ook weer verschillen ontstaan. Hoe fijner het wegdek van structuur is, hoe relatief sneller zijn smalle hard opgepompte banden.
    Ik zal vanavond iets over de verschillen op mijn blog zetten.
    Groeten,
    Wim

    BeantwoordenVerwijderen
  13. Wat je wel mist met pendelen is luchtweerstand van de band Wim. Dat is een realiteitsverschil met een echte velomobiel. En dan nog welke velomobiel, sinds een beter gevulde open wielkast weer andere dingen doet dan een velomobiel met dichte wielkast, en weer hoe hoog die op de pootjes staat dus hoeveel band er uit steekt.



    BeantwoordenVerwijderen
  14. Quezzzt,
    De luchtweerstand van een rijdende velomobiel neem ik inderdaad niet mee. Wel relevant overigens. Een Durano 20" loopt bij een gemiddelde uitrolproef 10% zwaarder dan een F-Lite. Met wielstroomlijnkappen tijdens een afdaling blijft de F-lite lichter lopen tot ... 70 km/u. Dan is de snelheid gelijk. Boven 70 km/u legt de F-lite het door zijn grotere frontaal oppervlak af tegen de smallere Durano.
    Deze praktijkgegevens van Jan van S. kun je mooi meenemen bij het ontwerp van je wielkappen.
    Groeten,
    Wim

    BeantwoordenVerwijderen
  15. Ach, wat relevant is bepaalt de lezer die er iets van leert.
    Niet relevant is dat medicijnen ontwikkelen veel kost, om de industrie, lees aandeelhouders, tevreden te houden. Niet relevant voor de zieke patiënt.

    Wel relevant is jouw post. Erg interessant. Ik ben geen R&D man, wel een praktijkman. wat werkt, dat is relevant, waar ik iets aan heb, als fietser in deze blogwereld.

    BeantwoordenVerwijderen
  16. Thanks Casper. We hoeve geen medelijden te hebben met grote pharma bedrijven, maar hoge ontwikkelingskosten zijn echt niet in het voordeel van wie dan ook. Ik heb alleen maar meegemaakt dat er gestopt wordt (door aandeelhouders, investeerders of directie) omdat het te duur wordt of te lang duurt, nooit andersom en zelfs als er uitstekende resultaten werden geboekt. Dat is ook niet in het voordeel van de patient. De hele sector (geldschieters, bedrijven, overheid, patient) heeft een probleem met deze stijgende kosten en ik zie daar niet meteen een oplossing. Maar goed, een beetje off topic.

    BeantwoordenVerwijderen