Omdat ik denk dat die beroepsdeformaties anderen misschien ook kunnen
helpen met te bepalen waar we nou helemaal mee bezig zijn, heb ik deze post
geschreven. Lastig, want ik wil geen jip-en-janneke-taal (een kleine ergernis
van mij: nee meneer de politicus, ik ben niet te dom om jou te begrijpen, dus
vertel nou maar gewoon waar het om gaat), maar het moet wel begrijpelijk
blijven voor iemand die toevallig nooit van significantie heeft gehoord.
Eerst maar een paar definities:
Relevantie – de mate waarin een test iets vertelt over iets wat we willen
weten van de werkelijkheid.
Significantie – de mate waarin (groepen van) testresultaten van elkaar
verschillen. Alleen als het relevante testen zijn, vertelt dit iets over de
mate waarin er in werkelijkheid verschillen zijn tussen dingen.
Validatie – Een serie proeven waarmee we erachter proberen te komen of een
testopzet relevant is en of de test significante verschillen kan laten zien. Dit
is simpelweg een kwestie van op een slimme manier heel veel testen uitvoeren waarvan
je weet wat de uitkomst moet zijn.
Het verschil tussen test en werkelijkheid
Allereerst is er altijd een verschil tussen de werkelijkheid en een meting.
Dit is wetenschapsfilosofie, maar het komt er op neer dat we nooit precies
zullen weten wat de werkelijkheid is.
Sommige mensen denken daarom dat we eigenlijk niets weten van de werkelijkheid
en dat alles relatief is. Die mensen raad ik aan om voortaan water in plaats
van benzine te tanken in hun auto, dat is veel goedkoper en het maakt toch niet uit.
Ook al zullen we nooit helemaal achter de werkelijkheid komen, wel kunnen we proberen om met theoretische modellen en metingen er steeds meer achter te
komen hoe het zit. Zo kunnen we de werkelijkheid
steeds beter begrijpen. Mooi voorbeeld uit de natuurkunde: Newton bedacht de
mechanica en gedurende 200 jaar hadden mensen het idee dat we de werkelijkheid
volledig konden doorgronden. Toen kwam Einstein met de relativiteitstheorie en
o.a. Schroedinger met de quantum mechanica. Nu zijn we nog steeds bezig om
die theorieën beter te begrijpen ten opzichte van de werkelijkheid. Eigenlijk
begrijpen we de werkelijkheid nu veel beter dan vroeger, maar het blijft verwarrend
dat tijd geen tijd meer is en dat God blijkt te dobbelen (Einstein geloofde niet
in de quantum mechanica, waarin toeval een grote rol speelt. ‘God dobbelt niet’
vond hij. Hij had ongelijk).
Relevantie: Meten wat je wilt Weten
Het verschil tussen test en werkelijkheid bepaalt de relevantie van een
test. Hoe groter het verschil, hoe minder relevant de test. Dat heb ik geprobeerd
duidelijk te maken in onderstaand plaatje en het voorbeeld van de
zwangerschapstest.
Stel, je (of je vriendin/vrouw) doet een test om te kijken of je zwanger
bent. De test-strip kleurt wel of niet blauw en kan daarmee aangeven positief
(wel zwanger) of negatief (niet). Dat kan 4 situaties opleveren, zie plaatje. De test doet
het goed (groen) en geeft wel (true positive) of niet (true negative) zwanger zoals je
dat ook daadwerkelijk wel/niet bent. De test is dan relevant (je hebt er wat aan) en
mogelijk ook valide (hij geeft telkens het juiste antwoord bij iedereen, al zou
dat in dit ene geval nog toeval kunnen zijn geweest).
Maar de test kan natuurlijk ook mislukken (rood): vals negatief (je bent wel
zwanger, maar de test kleurt niet aan) of vals positief (je bent niet zwanger,
maar de test kleurt wel). De test is dan niet valide. Of dat komt omdat hij
niet relevant is of niet significant kan makkelijker uitgelegd worden in een later
voorbeeld.
Nu zijn er ook situaties waarbij het antwoord niet aan/uit is, maar een
getal. Dat maakt een en ander wat ingewikkelder, maar een hoop bijft toch
hetzelfde.
Dan krijgen we niet 2 groene en 2 rode vakjes, maar de diagonaal (grijs in
de figuur), waar de test het hetzelfde getal geeft als de werkelijkheid: de Juiste Waarde. Nu
geeft de test nooit precies de Juiste Waarde, en daarom moeten we
een gebied afbakenen waarin we tevreden zijn met het resultaat (groen). Ook is
er een gebied waarin we niet helemaal tevreden zijn, maar waarin de resultaten
nog wel enigszins bruikbaar zijn (geel). De rode gebieden zijn valse
resultaten; hier geeft de test resultaten die niet meer relevant zijn. De test
zegt immers niets meer over de werkelijkheid.
Vaak is de wereld niet zo zwart-wit. Een test geeft vaak in een bepaald
gebied zeer relevante resultaten, maar daarbuiten wordt hij volkomen waardeloos.
Bijvoorbeeld de blauwe lijn is in het midden prima, maar aan de uiteinden
slecht.
Ik kan niet benadrukken hoe belangrijk relevantie is. Mensen meten er vaak
maar op los, gewoon omdat er gemeten kan worden. Maar wat vertelt het nu
eigenlijk?! Anderen zijn er dan als de kippen bij om te wijzen op onderdelen
van de test die op irrelevante resultaten duiden. Zij zien dan vaak het
relevante gebied van de test over het hoofd. Zo ontstaat er dan een welles/nietes
discussie waarin we geen stap verder komen. Hoe belangrijk relevantie is, wil
ik graag laten zien met een voorbeeld uit farmaceutische ontwikkeling.
Op elk nieuw ontwikkeld medicijn dat de markt bereikt, sneuvelen 49 999 medicijnen
tijdens de ontwikkeling omdat ze niet veilig zijn, niet werken, niet beter
werken dan bestaande medicijnen of omdat het bedrijf er gewoon geen brood in
ziet.
Stap
|
Testen in laboratorium
|
Testen in dieren
|
Testen in gezonde vrijwilligers
|
Testen in kleine groep patiënten
|
Testen in grote groep patiënten
|
Toegelaten op de markt
|
Aantal geteste medicijnen
|
50 000
45 000
vallen af
|
5 000
4 500
vallen af
|
500
450
vallen af
|
50
45
vallen af
|
5
4 vallen af
|
1
|
De relevantie van laboratiumtesten is dus heel slecht. 90% van de medicijnen
wordt in dit vroege stadium afgekeurd (daar moeten dus ook goede medicijnen
tussen zitten: vals negatief), maar 99.98% van de medicijnen die dit stadium
overleeft, blijkt later niet goed genoeg voor de markt (vals positief). Bij elke volgende
stap neemt de relevantie toe, maar zelfs tijdens tijdens de laatste, geldverslindende
studies in grote groepen patiënten moet nog 80% van de medicijnen worden afgekeurd.
Al die voorgaande testen bleken dus niet relevant genoeg in 4 van de 5 gevallen. Zucht. Al met al kost het tegenwoordig gemiddeld 1,2 miljard dollar en 15 jaar om een nieuw
medicijn te ontwikkelen. Kan dit beter? Vast wel, maar industrie en overheid
weten op dit moment niet goed hoe.
Volgende keer meer over significantie.
ik vind het in ieder geval een relevant stukje
BeantwoordenVerwijderen(al is het wel wat veel theorie zo op de vroege ochtend ;-)
Thanks, neem gerust nog een kop koffie, het was geschreven op de late avond, dus....
BeantwoordenVerwijderenEen leuk stukje, en je hebt gelijk, een auto rijdt niet op water. :-))
BeantwoordenVerwijderenMaar je hebt ongelijk in de stelling dat God dobbelt, voor de mens lijkt het soms zo. Maar in werkelijkheid is het niet zo, lees zijn handleiding maar, de Bijbel.
400 jaar na de godsdienstoorlogen is het nog steeds gevaarlijk om discussies over de bijbel te beginnen, dus ik hou het er maar op dat dat off-topic is.
BeantwoordenVerwijderenDe opmerking van Einstein verwees naar het dobbelen van alle kleine deeltjes, bijv electronen. Daarvan is bewezen dat ze het doen, en nog massaal ook. Einstein kon niet geloven dat God de wereld zo geschapen zou hebben.
Proficiat, goed stuk, zeer duidelijk en verhelderend. Discussies over geloof kunnen we inderdaad beter vermijden op deze (fiets)blogs, iedereen heeft daar een eigen overtuiging over, dat soort discussies levert nooit een win-win situatie op.
BeantwoordenVerwijderenIk kijk in elk geval uit naar het vervolg, heel interessant!
Groeten, Adri.
Mensen dobbelen in ieder geval wel. Of het nu plannen zijn een krankzinnige 100 megaton atoombom te laten ontploffen zonder dat je weet wat de effecten daarvan kunnen zijn ( zoals bijv alle zuurstof van de atmosfeer in een kettingreactie in brand steken wat men toen vreesde ) of een nog sterkere deeltjesversneller in bedrijf nemen waarvan je echt niet de resulterende effecten kent maar enkel theoretisch vermoed, of toch maar Ebola een in lucht besmettelijk virus maakt in streng beveiligde geheime labaratoria want de vijand doet dat immers ook.
BeantwoordenVerwijderenOpvallend genoeg leven we nog.
Het is eigenlijk ook wel fijn een heleboel dingen niet te weten. Moet ik weten dat ondanks bovenbeschrevene heel veel medicijnen nog steeds niet op ieder mens goed werken omdat neutraliserende enzymen in het lichaam voor iedereen weer anders werken ? Dat het placebo effect voor een groot deel van de medicijnen de grootste bijdrage aan de behandeling levert ?
Zelfs met relevantie zijn sommige dingen nog steeds niet relevant.
...en zo moddert de natuur voort (morgen valt er een meteoriet op aarde) en de mensheid met haar. Ik moest nog iets cynischer worden, Quezzzt, en toen zag ik de schoonheid er van in. Ondanks alles leven we. Ik geniet daarvan zolang het duurt!
BeantwoordenVerwijderenBij het niet-willen-weten scheiden onze wegen. Ik heb van de appel van de boom der kennis gegeten...om toch nog 1 keer naar de bijbel te verwijzen.
Ik bekijk het liever omgekeerd vwb placebo's. Placebo's zijn de mooiste medicijnen als ze helpen: geen bijwerkingen mogelijk. Els Borst: ze werken niet, maar helpen wel. Dokters zijn soms nog steeds sjamanen in een witte jas.
Tot slot, om weer terug te keren naar het topic: voor fabrikant, apotheker, dokter, patient en wetenschapper is de relevantie van een medicijn telkens anders. Soms helaas maar waar.
Magic Bullet,
BeantwoordenVerwijderenHelder stuk. Ik ben al jaren bezig om de relevantie van mijn proeven te verbeteren. Eerst reed ik met de Quest van een viaduct. Wind, wegdek, sporing, sturen en temperatuur vertroebelden de resultaten. Vervolgens met het meetplatform en meetwagen buiten. Ook hier waren weer wind, wegdek en temperatuur boosdoeners. Vervolgens met de meetwagen naar binnen. Wind en temperatuur waren geen spelbrekers meer, het niet relevante wegdek wel.
Daarna de pendel. Wind en temperatuur zijn geen nadelige factoren meer. De gladde tegelvloer weer wel.
Tenslotte de pendel op asfaltgoten. Nu zijn wind, temperatuur en wegdek allemaal onder controle.
Het lijkt erop dat de pendel nu relavante uitkomsten oplevert.
Dat zijn ook de fabrikanten met me eens. Ik ga nu in opdracht van een grote (race) fietsbandenfabrikant 28 inch racefiets banden testen. Ook bandenfabrikanten realiseren zich donders goed dat een rollenbank alleen relevante resultaten oplevert als je banden test die qua diameter, breedte, constructie en druk vrijwel gelijk zijn.
Groeten,
Wim
Beste Wim,
BeantwoordenVerwijderenThanks. De clou met je pendel is dat je heel veel aan significantie hebt gewonnen tov uitrollen ed, maar dat dat mogelijk ten koste van de relevantie is gegaan (bijv echt wegdek is dan wel specifiek, maar ook erg relevant=dicht bij de werkelijkheid). Daarom moet de pendelmethode (als elke methode) gevalideerd worden op zowel relevantie als significantie, als je tenminste echt een sterk verhaal wilt hebben. En ik vermoed dat je dat graag wilt.
"METEN MET TWEE MATEN IS LEUKER DAN ALLEEN"
BeantwoordenVerwijdereneen stelling waar ik ineens aan moest denken (afkomstig uit "Het paard van Damocles" - een verzameling aforismen van Delftse promovendi)
Nog een andere stelling uit dit boekje (weliswaar niet passend bij dit onderwerp maar wel bij een fietsblog)
"FIETSERS VERONGELUKKEN GEZONDER DAN OVERIGE WEGGEBRUIKERS"
ik wens iedereen alvast een prettig weekend
groet Marcus
(diebeginfebruarinogsteedszittewachtenopzijnjanuariquest :-(
Het lijkt er inderdaad op dat de aflevering van Questen enigszins stagneert. Was ik dus net op tijd :)
VerwijderenIdd een pendel is geen velomobiel, ook niet als je het gewicht en wieldruk ervan nabootst en het daarmee test op echt asfalt van een vastgestelde temperatuur ;-)
BeantwoordenVerwijderenAlleen als je de pendelresultaten optelt bij uitkomsten van rolproeven met een velomobiel ga je de realiteit benaderen.
Dat wordt een indoor asfalt hellingbaan Wim....oh nee, zonder wind en temperatuursverschillen ook weer geen relevant ;-)
Magic Bullit,
BeantwoordenVerwijderenSignificant is dat bij normale temperaturen, met vorst heb ik met andere methoden niet gemeten, de verschillen in pendeltijd procentueel overeenkomen met de verschillen in uitrolafstand.
We moeten het niet ingewikkelder maken dan nodig. Een band die langer pendelt heeft een lagere rolweerstand. En ik meet niet meer dan de onderlinge verschillen tussen banden.
Feit is dat wetenschappelijk verantwoord geachte methoden, in casu de rollenbank, in de praktijk niet relevant blijken te zijn.
Op elke methode is wat af te dingen. Als ik bijv. een fijnere asfaltmix had gekozen zouden er ook weer verschillen ontstaan. Hoe fijner het wegdek van structuur is, hoe relatief sneller zijn smalle hard opgepompte banden.
Ik zal vanavond iets over de verschillen op mijn blog zetten.
Groeten,
Wim
Wat je wel mist met pendelen is luchtweerstand van de band Wim. Dat is een realiteitsverschil met een echte velomobiel. En dan nog welke velomobiel, sinds een beter gevulde open wielkast weer andere dingen doet dan een velomobiel met dichte wielkast, en weer hoe hoog die op de pootjes staat dus hoeveel band er uit steekt.
BeantwoordenVerwijderenQuezzzt,
BeantwoordenVerwijderenDe luchtweerstand van een rijdende velomobiel neem ik inderdaad niet mee. Wel relevant overigens. Een Durano 20" loopt bij een gemiddelde uitrolproef 10% zwaarder dan een F-Lite. Met wielstroomlijnkappen tijdens een afdaling blijft de F-lite lichter lopen tot ... 70 km/u. Dan is de snelheid gelijk. Boven 70 km/u legt de F-lite het door zijn grotere frontaal oppervlak af tegen de smallere Durano.
Deze praktijkgegevens van Jan van S. kun je mooi meenemen bij het ontwerp van je wielkappen.
Groeten,
Wim
Ach, wat relevant is bepaalt de lezer die er iets van leert.
BeantwoordenVerwijderenNiet relevant is dat medicijnen ontwikkelen veel kost, om de industrie, lees aandeelhouders, tevreden te houden. Niet relevant voor de zieke patiënt.
Wel relevant is jouw post. Erg interessant. Ik ben geen R&D man, wel een praktijkman. wat werkt, dat is relevant, waar ik iets aan heb, als fietser in deze blogwereld.
Thanks Casper. We hoeve geen medelijden te hebben met grote pharma bedrijven, maar hoge ontwikkelingskosten zijn echt niet in het voordeel van wie dan ook. Ik heb alleen maar meegemaakt dat er gestopt wordt (door aandeelhouders, investeerders of directie) omdat het te duur wordt of te lang duurt, nooit andersom en zelfs als er uitstekende resultaten werden geboekt. Dat is ook niet in het voordeel van de patient. De hele sector (geldschieters, bedrijven, overheid, patient) heeft een probleem met deze stijgende kosten en ik zie daar niet meteen een oplossing. Maar goed, een beetje off topic.
BeantwoordenVerwijderen