De nutteloze p-waarde

Rosendaal, F. R.

doi:10.1007/978-90-368-2153-7_10

F. R. Rosendaal⁴

724 Accesses

Samenvatting

In wetenschappelijk onderzoek wordt vaak geschermd met de p-waarde: als deze significant is, is de bevinding waar. Anders niet. De werkelijkheid is dat een significante p-waarde niets zegt over het waarheidsgehalte van een bepaalde conclusie en dat een niet-significante p-waarde zo mogelijk nog minder zegt over het klinisch belang van een onderzoeksresultaat. Het lijkt of p-waarden vooral populair zijn bij artsen. De noodzaak tot ja-neebeslissingen in de klinische praktijk (wel of niet insturen, wel of niet opereren) passen zij ook toe in het denken over wetenschappelijke resultaten, met een dichtome interpretatie van de p-waarde die echter contraproductief is.

Dit hoofdstuk is een bewerking van een artikel dat eerder verscheen in de European Journal of Internal Medicine [7].

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 39.99; Price excludes VAT (USA)

Hardcover Book: USD 49.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
In de voorbeelden komt steeds maar één uitkomst voor, maar wat als zij allebei (kop en munt) in een serie voorkomen? Stel, we gooien de munt honderd keer en we observeren eenmaal kop en 99 maal munt en als we dit nog een keer doen 50 maal kop en 50 maal munt. Het is duidelijk dat we intuïtief bij het eerste experiment zouden besluiten dat de munt vals is en bij het tweede eerlijk. De waarschijnlijkheid van iedere uitkomst is weer met binomiale kansen te berekenen: de kans op eenmaal munt in 100 worpen is 100 * (1/2)¹ * (1/2)⁹⁹ = 7,9 * 10⁻²⁹, dat wil zeggen, zoals verwacht een zeer kleine kans (0,000000000000000000000000000079). De kans op 50 maal kop en 50 maal munt is
$$ \left[ {\begin{array}{*{20}l} {100} \hfill \\ {50 * (1/2)^{50} * (1/2)^{50} } \hfill \\ \end{array} } \right] = 0,079 $$

Dit voelt verrassend, omdat we precies een verdeling van 50:50 waarnemen, waarvan we verwachtten dat deze, bij een eerlijke munt, de hoogste kans zou hebben. Het punt is dat er zo enorm veel mogelijke series van 100 worpen zijn, namelijk 10.000 verschillende combinaties, dat iedere uitkomst zeldzaam is. Bij 10.000 mogelijkheden is 7,9 % juist een vrij hoge kans. Dit is de reden dat de p-waarde niet gedefinieerd wordt als de kans op een bepaalde uitkomst, maar als de kans op deze of een meer extreme uitkomst (overschrijdingskans). In dit geval is (p ≥ 50) = 0,54 en we zouden concluderen dat er geen reden is aan te nemen dat er iets mis is met de munt.
2.
De p-waarde is afhankelijk van de groepsgrootte. Stel dat we op zoek zijn naar deviaties van een 50/50-verdeling, bijvoorbeeld of mannen en vrouwen gelijkelijk verdeeld zijn over een bepaald beroep, dan kunnen grote verschillen al met een kleine steekproef gedetecteerd worden. Is de werkelijke verhouding 70/30, dan volstaat een steekproefgrootte van 50. Is de verhouding 60/40, dan zullen er al gauw 200 mensen nodig zijn en om een klein verschil van 51/49 op te kunnen pikken is een steekproef van meer dan 20.000 mensen vereist.
Ook hier zijn geen garanties. Geen enkele steekproefgrootte garandeert dat een bestaand verschil ook gezien wordt. De kans dát een vooraf gespecificeerd verschil in het onderzoek opgemerkt wordt, is te kwantificeren en wordt de ‘power’ genoemd, en 1-power de type-II-fout. De power is te vergelijken met de sensitiviteit van een diagnostische test. In deze voorbeelden is de power op 80 % gezet: wanneer het werkelijke verschil tussen mannen en vrouwen in een bepaald beroep 51–49 is, hebben we met een steekproef van 20.000 mensen 80 % kans op een significant resultaat. Willen we meer zekerheid (hogere power), dan moet de te onderzoeken groep worden vergroot. Dit kan ook worden omgedraaid: bij een zeer klein onderzoek leiden ook grote effecten niet tot een significant resultaat, terwijl bij een zeer groot onderzoek zelfs de kleinste verschillen significant worden.

Literatuur

Rothman KJ. Significance questing. Ann Intern Med. 1986;105:445–7.
Article CAS PubMed Google Scholar
Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429–35.
Article CAS PubMed Google Scholar
Goodman SN. Toward evidence-based medical statistics. 1: the P value fallacy. Ann Intern Med. 1999;130:995–1004.
Article CAS PubMed Google Scholar
Elm E von, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Med. 2007 Oct 16;4:e296.
Google Scholar
Boland PJ. A biographical glimpse of William Sealy Gosset. Am Stat. 1984;38:179–83.
Google Scholar
Rosendaal FR, Bouter LM. Dwalingen in de methodologie XXXIX: de ultieme waarheid. Ned Tijdschr Geneeskd. 2002;146:304–9.
PubMed CAS Google Scholar
Rosendaal FR. The p-value: a clinician’s disease? Eur J Intern Med. 2016;35:20–3.
Article CAS PubMed Google Scholar

Download references

Author information

Authors and Affiliations

LUMC, Leiden, Nederland
Prof. dr. F. R. Rosendaal (Hoogleraar Klinische Epidemiologie, hoofd afdeling Klinische Epidemiologie)

Authors

Prof. dr. F. R. Rosendaal
View author publications
You can also search for this author in PubMed Google Scholar

Editor information

Editors and Affiliations

Afdeling Neurologie, Radboud Universitair Medisch Centrum, Nijmegen, The Netherlands
Baziel van Engelen
Radboud UMC, Nijmegen, The Netherlands
Gert Jan van der Wilt
University College London Hospitals, London, UK
Marcel Levi

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Rosendaal, F.R. (2018). De nutteloze p-waarde. In: van Engelen, B., van der Wilt, G., Levi, M. (eds) Wat is er met de dokter gebeurd?. Bohn Stafleu van Loghum, Houten. https://doi.org/10.1007/978-90-368-2153-7_10

Download citation

DOI: https://doi.org/10.1007/978-90-368-2153-7_10
Published: 12 September 2018
Publisher Name: Bohn Stafleu van Loghum, Houten
Print ISBN: 978-90-368-2152-0
Online ISBN: 978-90-368-2153-7
eBook Packages: Dutch language eBook collection

Publish with us

Policies and ethics