Skip to main content

De nutteloze p-waarde

  • Chapter
  • First Online:
Wat is er met de dokter gebeurd?
  • 724 Accesses

Samenvatting

In wetenschappelijk onderzoek wordt vaak geschermd met de p-waarde: als deze significant is, is de bevinding waar. Anders niet. De werkelijkheid is dat een significante p-waarde niets zegt over het waarheidsgehalte van een bepaalde conclusie en dat een niet-significante p-waarde zo mogelijk nog minder zegt over het klinisch belang van een onderzoeksresultaat. Het lijkt of p-waarden vooral populair zijn bij artsen. De noodzaak tot ja-neebeslissingen in de klinische praktijk (wel of niet insturen, wel of niet opereren) passen zij ook toe in het denken over wetenschappelijke resultaten, met een dichtome interpretatie van de p-waarde die echter contraproductief is.

Dit hoofdstuk is een bewerking van een artikel dat eerder verscheen in de European Journal of Internal Medicine [7].

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 39.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Hardcover Book
USD 49.99
Price excludes VAT (USA)
  • Durable hardcover edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    In de voorbeelden komt steeds maar één uitkomst voor, maar wat als zij allebei (kop en munt) in een serie voorkomen? Stel, we gooien de munt honderd keer en we observeren eenmaal kop en 99 maal munt en als we dit nog een keer doen 50 maal kop en 50 maal munt. Het is duidelijk dat we intuïtief bij het eerste experiment zouden besluiten dat de munt vals is en bij het tweede eerlijk. De waarschijnlijkheid van iedere uitkomst is weer met binomiale kansen te berekenen: de kans op eenmaal munt in 100 worpen is 100 * (1/2)1 * (1/2)99 = 7,9 * 10−29, dat wil zeggen, zoals verwacht een zeer kleine kans (0,000000000000000000000000000079). De kans op 50 maal kop en 50 maal munt is

    $$ \left[ {\begin{array}{*{20}l} {100} \hfill \\ {50 * (1/2)^{50} * (1/2)^{50} } \hfill \\ \end{array} } \right] = 0,079 $$

    Dit voelt verrassend, omdat we precies een verdeling van 50:50 waarnemen, waarvan we verwachtten dat deze, bij een eerlijke munt, de hoogste kans zou hebben. Het punt is dat er zo enorm veel mogelijke series van 100 worpen zijn, namelijk 10.000 verschillende combinaties, dat iedere uitkomst zeldzaam is. Bij 10.000 mogelijkheden is 7,9 % juist een vrij hoge kans. Dit is de reden dat de p-waarde niet gedefinieerd wordt als de kans op een bepaalde uitkomst, maar als de kans op deze of een meer extreme uitkomst (overschrijdingskans). In dit geval is (p ≥ 50) = 0,54 en we zouden concluderen dat er geen reden is aan te nemen dat er iets mis is met de munt.

  2. 2.

    De p-waarde is afhankelijk van de groepsgrootte. Stel dat we op zoek zijn naar deviaties van een 50/50-verdeling, bijvoorbeeld of mannen en vrouwen gelijkelijk verdeeld zijn over een bepaald beroep, dan kunnen grote verschillen al met een kleine steekproef gedetecteerd worden. Is de werkelijke verhouding 70/30, dan volstaat een steekproefgrootte van 50. Is de verhouding 60/40, dan zullen er al gauw 200 mensen nodig zijn en om een klein verschil van 51/49 op te kunnen pikken is een steekproef van meer dan 20.000 mensen vereist.

    Ook hier zijn geen garanties. Geen enkele steekproefgrootte garandeert dat een bestaand verschil ook gezien wordt. De kans dát een vooraf gespecificeerd verschil in het onderzoek opgemerkt wordt, is te kwantificeren en wordt de ‘power’ genoemd, en 1-power de type-II-fout. De power is te vergelijken met de sensitiviteit van een diagnostische test. In deze voorbeelden is de power op 80 % gezet: wanneer het werkelijke verschil tussen mannen en vrouwen in een bepaald beroep 51–49 is, hebben we met een steekproef van 20.000 mensen 80 % kans op een significant resultaat. Willen we meer zekerheid (hogere power), dan moet de te onderzoeken groep worden vergroot. Dit kan ook worden omgedraaid: bij een zeer klein onderzoek leiden ook grote effecten niet tot een significant resultaat, terwijl bij een zeer groot onderzoek zelfs de kleinste verschillen significant worden.

Literatuur

  1. Rothman KJ. Significance questing. Ann Intern Med. 1986;105:445–7.

    Article  CAS  PubMed  Google Scholar 

  2. Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429–35.

    Article  CAS  PubMed  Google Scholar 

  3. Goodman SN. Toward evidence-based medical statistics. 1: the P value fallacy. Ann Intern Med. 1999;130:995–1004.

    Article  CAS  PubMed  Google Scholar 

  4. Elm E von, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Med. 2007 Oct 16;4:e296.

    Google Scholar 

  5. Boland PJ. A biographical glimpse of William Sealy Gosset. Am Stat. 1984;38:179–83.

    Google Scholar 

  6. Rosendaal FR, Bouter LM. Dwalingen in de methodologie XXXIX: de ultieme waarheid. Ned Tijdschr Geneeskd. 2002;146:304–9.

    PubMed  CAS  Google Scholar 

  7. Rosendaal FR. The p-value: a clinician’s disease? Eur J Intern Med. 2016;35:20–3.

    Article  CAS  PubMed  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2018 Bohn Stafleu van Loghum is een imprint van Springer Media B.V., onderdeel van Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Rosendaal, F.R. (2018). De nutteloze p-waarde. In: van Engelen, B., van der Wilt, G., Levi, M. (eds) Wat is er met de dokter gebeurd?. Bohn Stafleu van Loghum, Houten. https://doi.org/10.1007/978-90-368-2153-7_10

Download citation

  • DOI: https://doi.org/10.1007/978-90-368-2153-7_10

  • Published:

  • Publisher Name: Bohn Stafleu van Loghum, Houten

  • Print ISBN: 978-90-368-2152-0

  • Online ISBN: 978-90-368-2153-7

  • eBook Packages: Dutch language eBook collection

Publish with us

Policies and ethics