Tijdschrift voor gezondheidswetenschappen

, Volume 96, Issue 1, pp 1–2 | Cite as

Vertrouw niet op een p-waarde!

Redactioneel
  • 137 Downloads

Het KAMG-congres in november 2017 over veiligheid had als titel: ‘Vertrouwen goed, controle beter?’ Voor dokters en andere professionals werkzaam in de gezondheidszorg is vertrouwen de basis waarop gewerkt wordt. Geen enkele professional komt ’s morgens zijn bed uit met de bedoeling de zaak te vernachelen.

Dat geldt ook voor wetenschappers. Met tomeloze energie proberen zij ‘algemeen geldende waarheden’ op hun onderzoeksterrein boven tafel te krijgen. Hoe bijzonder is het dan dat er nog zoveel vertrouwd wordt op een p-waarde? Als lid van de redactie zie ik veel manuscripten waarin alles opgehangen wordt aan p-waarden en waar uitsluitend statistisch significante resultaten worden beschreven. Erger nog, bij multivariate analyses in de stappen daarvoor worden vaak alleen die factoren in de analyse meegenomen die univariaat ‘statistisch significant’ zijn. Dit is te beschouwen als een kunstfout. Niet alleen omdat inhoudelijke kennis en niet een statistisch model leidend zou moeten zijn bij het maken van keuzen, maar zeker ook omdat confounders nog een rol kunnen spelen. Maar ook lezers van wetenschappelijke artikelen verlaten zich nogal eens uitsluitend op statistisch significante resultaten en nemen deze gemakshalve voor ‘waar’ aan. Kennelijk is de gedachtegang als volgt: p < 0,05, het resultaat is statistisch significant ➔ deze uitkomst kan geen toeval zijn ➔ het moet dus wel echt c. q. ‘waar’ zijn.

Valkuil

Waar komt het idee dat een statistisch significant resultaat ook ‘waar’ is vandaan? Er zijn legio mogelijkheden om in deze valkuil te trappen en onbewust spelen ze misschien allemaal wel een rol. Hieronder een paar opties.

Allereerst de focus op hypothesetoetsen waar velen mee zijn opgegroeid. Zij leren dat de p-waarde de kans is op het gevonden resultaat (een verschil of effect) als de nulhypothese (H0: er is geen verschil of effect) waar is. Als deze kans klein is (en meestal wordt daarvoor als grens p < 0,05 aangehouden), dan is het niet waarschijnlijk dat H0 = waar. Het is dan heel verleidelijk om bij het verwerpen van de nulhypothese de alternatieve hypothese (H1: er is een verschil, effect) tot ‘waar’ te verklaren, ook al is dit niet juist.

Dit wordt misschien nog ondersteund door het woordgebruik. Als men leert over toevalsvariatie, valt ook wel de term ‘toevalsfout’. Er is natuurlijk helemaal niets fout aan toevalsvariatie: die is er immers altijd en juist de statistiek helpt ons deze variatie maat en getal te geven (bijvoorbeeld met het 95 %-betrouwbaarheidsinterval). Maar toch …

Deze vorm van hypothesetoetsing is gebaseerd op toevalsvariatie en bij een statistisch significant resultaat wordt ook wel gezegd dat het gevonden effect groter is dan op basis van toeval te verwachten is. Met andere woorden, het gevonden effect is niet te wijten aan toeval. Maar men gaat een stap te ver als men denkt dat als het toeval geen rol meer speelt, daarmee de ‘fout’ is opgelost en het gevonden resultaat dus ‘waar’ is.

Precisie en validiteit

Wat men zich bij de beschreven valkuilen niet realiseert is dat precisie en validiteit twee verschillende én onafhankelijke begrippen zijn. Precisie oftewel betrouwbaarheid gaat over toevalsvariatie. Zoals hierboven al gezegd, speelt toeval bij alles wat we meten een rol. En eigenlijk is dat niets om ons zorgen over te maken, zolang we dit in maat en getal kunnen uitdrukken. Validiteit is een totaal andere kwestie. Hier gaat het over de waarheid, de werkelijkheid: is wat we gevonden hebben ook het ‘echte’ verschil of effect? Of is het vertekend door confounding of andere vormen van bias die zijn opgetreden tijdens de opzet, uitvoering of analyse van het onderzoek?

Veel leerboeken epidemiologie laten aan de hand van schietschijven zien dat validiteit (alle schoten zitten in of rondom de roos) onafhankelijk is van precisie (de spreiding tussen de schoten). Als alle schoten heel dicht bij elkaar zitten, dan is er weinig toevalsvariatie, het resultaat is ‘statistisch significant’. Maar als deze schoten ver van de roos verwijderd zijn dan is het resultaat niet-valide, dus niet overeenkomstig de werkelijkheid.

Precisie is relatief gemakkelijk uit te drukken met behulp van een 95 %-betrouwbaarheidsinterval. Maar om te weten of een resultaat valide is moet helder en logisch nagedacht worden, waarbij zowel inhoudelijke als methodologische kennis vereist is. Dat kost meer tijd dan het berekenen van een p-waarde.

Relevantie

Statistisch significant wordt vaak geduid als ‘relevant’. Ook hier speelt woordgebruik een rol. Significant betekent immers belangrijk, betekenisvol, belangwekkend. Of een verschil of effect ‘ertoe doet’ c. q. ‘de moeite waard is’ om iets te veranderen in praktijk of beleid is echter niet afhankelijk van statistische significantie. Omdat het bij kwantitatief onderzoek om getallen gaat helpt het enorm om, als lezer, ‘cijferwijs’ te worden en in eerste instantie te focussen op de grootte van het effect of verschil. Daarvoor moet kennis aanwezig zijn over de verschillende soorten uitkomstmaten, zoals frequentie- en associatiematen, en de daarvan afgeleide maten. Tevens moet de lezer begrijpen in hoeverre deze goed interpreteerbaar zijn naar de eigen praktijk of context (wetenschappelijk, individueel/klinisch of maatschappelijk). Relatieve risico’s bijvoorbeeld zijn moeilijk te interpreteren op individuele relevantie als er niet ook absolute risico’s bekend zijn. Gemiddelde waarden, percentages en verschillen daartussen zijn over het algemeen wel goed interpreteerbaar. Toch is ook hier de verleiding groot om uit te wijken naar statistische maten, zoals effectgroottes, waarbij het verschil of effect kan worden uitgedrukt in aantal standaarddeviaties. Kennelijk is het moeilijk om te bepalen wat relevant c. q. de moeite waard is. In die zin bestaan er ook geen ‘harde cijfers’, want soms is 5 % veel, maar vaak ook niet. Relevantie hangt namelijk sterk samen met wat er concreet gemeten is en in welke context. Gaat het om ziekte, sterfte, levensgeluk of intermediaire parameters? En bij wie en tegen welke prijs, in de zin van kosten en moeite? Hier volstaat niet één getal of afkappunt, maar moet over elke situatie apart nagedacht worden.

Om te onthouden

Het is dus wel begrijpelijk dat het verleidelijk is om af te gaan op p-waarden. P-waarden hoeven ook niet uitgebannen te worden, al gaat de voorkeur van de redactie nog steeds uit naar het presenteren van uitkomstmaten met bijbehorende 95 %-betrouwbaarheidsintervallen.

Onthoud, voor de vertaalslag naar praktijk en beleid in de gezondheidszorg, twee zaken. Als eerste: statistisch significant ≠ echt of waar, en als tweede: statistisch significant ≠ relevant.

Een flyer van de poster, gepresenteerd op het KAMG-congres ‘Vertrouwen goed, controle beter?’, is verkrijgbaar bij de auteur.

Copyright information

© Bohn Stafleu van Loghum is een imprint van Springer Media B.V., onderdeel van Springer Nature 2018

Authors and Affiliations

  1. 1.STIP (Stiphout Training In Praktijk)ZweelooNederland

Personalised recommendations