Een chatbot klinkt als een arts, en juist dat is het gevaar. Wat recent onderzoek laat zien over AI en gezondheidsvragen, waarom het misgaat, en hoe je deze tools verantwoord inzet.
Vraag een chatbot 's avonds laat naar die rare uitslag op je arm, en je krijgt binnen vijf seconden een keurig, zelfverzekerd antwoord terug. Netjes geformuleerd, met opsommingstekens, in perfect Nederlands. Het klinkt als een arts. En precies daar zit het probleem. Want hoe overtuigender het klinkt, hoe minder je geneigd bent te controleren of het ook klopt. Ik bouw zelf AI-producten voor klanten, dus ik ben de laatste die roept dat AI onzin is. Maar gezondheid is nu juist het domein waar blind vertrouwen het hardst terugkomt. Laten we nuchter kijken naar wat AI in de zorg wel en niet kan, waarom het misgaat, en hoe je deze tools verantwoord gebruikt.
De cijfers zijn minder geruststellend dan de toon
De toon van een chatbot suggereert autoriteit. De data zegt iets anders.
In februari 2026 publiceerden onderzoekers van de Universiteit van Oxford een gerandomiseerde studie in Nature Medicine met bijna 1.300 deelnemers. De opzet was slim: mensen kregen een medisch scenario en moesten bepalen welke aandoening erachter zat en wat ze moesten doen. De ene groep mocht een AI-chatbot gebruiken, de andere mocht alles behalve dat (Google, eigen oordeel, wat dan ook).
Het opvallende resultaat: de groep met AI deed het niet beter dan de controlegroep. En dat terwijl dezelfde taalmodellen, los van menselijke gebruikers getest, de aandoeningen in 94,9% van de gevallen correct herkenden. De kennis zit dus wel in het model. Ze vertaalt alleen niet naar bruikbaar advies zodra een echt mens er tegenaan praat. Mensen wisten vaak niet welke informatie ze moesten geven, en de antwoorden mengden goede en slechte adviezen door elkaar.
Dat mengen is een terugkerend patroon. Een audit gepubliceerd in BMJ Open (2025, geleid vanuit UCLA) legde vijf chatbots, waaronder ChatGPT, Gemini, Grok en Meta AI, vijftig gezondheidsvragen voor. Bijna de helft van de antwoorden was problematisch: zo'n 30% deels en bijna 20% sterk problematisch. De bronvermelding scoorde nog slechter, met een mediane volledigheid van 40%, en alle vijf de chatbots verzonnen citaties. Slechts 0,8% van de antwoorden bevatte een weigering om te antwoorden. Met andere woorden: ze gokken liever zelfverzekerd dan dat ze "dat weet ik niet" zeggen.
En het wordt scherper als de inzet hoger is. Een studie in JAMA Oncology (augustus 2023, vanuit Brigham and Women's Hospital) liet ChatGPT kankerbehandelingen voorstellen voor borst-, prostaat- en longkanker. In 34% van de antwoorden zat minstens één aanbeveling die niet klopte met de behandelrichtlijnen. In 12,5% van de gevallen verzon het model behandelingen die helemaal niet bestaan, inclusief "genezende" therapieën voor niet te genezen kanker. Tegelijk bevatte 98% van de antwoorden óók correct advies. Juist die mix maakt het gevaarlijk: foute adviezen verstopt tussen goede zijn voor een leek niet te herkennen.
Waarom een taalmodel hierin de mist in gaat
Dit zijn geen kinderziektes die met de volgende update verdwijnen. Ze komen voort uit hoe deze systemen werken.
Een taalmodel voorspelt woorden, het begrijpt geen geneeskunde. Het kiest het meest waarschijnlijke volgende woord op basis van patronen in zijn trainingsdata. Dat levert vloeiende, plausibele tekst op. Maar plausibel en correct zijn niet hetzelfde. De patiëntsafety-organisatie ECRI verwoordt het droog: deze tools zijn "geprogrammeerd om zelfverzekerd te klinken en altijd een antwoord te geven", ook als dat antwoord nergens op slaat.
Hallucinaties zijn ingebakken. Als het model iets niet weet, vult het de gaten op met iets dat eruitziet alsof het klopt. Bij het schrijven van een productbeschrijving is dat hooguit vervelend. Bij een medicijndosering of een interactie tussen twee middelen kan het gevaarlijk zijn.
Het mist jouw context. Een chatbot kent je medische voorgeschiedenis niet, ziet je niet, kan niet doorvragen op het ene detail dat alles verandert. De Oxford-studie liet precies daar de communicatie stuklopen: gebruikers wisten niet wat het model nodig had, en het model vroeg er niet naar.
De trainingsdata is een momentopname. Richtlijnen veranderen, nieuwe onderzoeken verschijnen, middelen worden teruggetrokken. Een model dat getraind is op gisteren weet niets van vandaag, tenzij het expliciet actuele bronnen mag raadplegen.
Het is geen reden om AI uit de zorg te bannen
Belangrijk: dit is geen pleidooi tegen AI in de gezondheidszorg. Onder de juiste voorwaarden is het waardevol. AI is sterk in het samenvatten van een berg documenten, het helpen formuleren van een vraag voor je huisarts, of het ondersteunen van een professional die de uitkomst zelf controleert. Het verschil zit hem niet in de technologie, maar in hoe je hem inzet.
ECRI plaatste het misbruik van AI-chatbots in januari 2026 bovenaan zijn jaarlijkse lijst van grootste risico's in de gezondheidstechnologie. Niet omdat de tools waardeloos zijn, maar omdat meer dan 40 miljoen mensen er dagelijks gezondheidsvragen aan stellen (volgens een analyse van OpenAI zelf), terwijl ze niet als medisch hulpmiddel zijn gecertificeerd of gevalideerd. Het advies van ECRI is nuchter en bruikbaar: ken de grenzen van de tool, en verifieer wat je leest altijd bij een betrouwbare bron.
Zo gebruik je AI voor gezondheidsvragen zonder jezelf in de vingers te snijden
Een paar concrete vuistregels:
- Gebruik het om vragen te formuleren, niet om diagnoses te stellen. "Wat zou ik mijn huisarts hierover kunnen vragen?" is een prima prompt. "Wat heb ik?" niet.
- Vraag altijd om bronnen, en klik erop. Verzonnen citaties zijn eerder regel dan uitzondering. Een bron die niet bestaat of niet zegt wat het model beweert, is een rode vlag.
- Vertrouw zelfverzekerde toon niet als bewijs. Hoe gladder het antwoord, hoe kritischer je mag zijn. Overtuiging is geen accuratesse.
- Houd een mens in de lus bij alles wat ertoe doet. Een arts, apotheker of specialist. De chatbot is een startpunt voor het gesprek, niet de vervanging ervan.
- Bij acute klachten: bel, niet chat. Pijn op de borst, plotselinge uitval, een kind met hoge koorts. Dan is elke seconde aan een chatbot een verloren seconde.
Wat dit betekent voor iedereen die met AI bouwt
Ik trek deze les bewust breder dan de zorg, want hij geldt voor elke AI die je in je bedrijf loslaat. De fouten die chatbots in gezondheidsvragen maken (zelfverzekerd hallucineren, bronnen verzinnen, context missen) maken ze in elk domein. Bij een offerte, een juridische tekst of een financieel advies zijn de gevolgen alleen minder zichtbaar, tot het misgaat.
Daarom bouw ik AI-oplossingen met een paar harde principes. Een mens in de lus bij alles wat onomkeerbaar of risicovol is. Verplichte bronvermelding, zodat een antwoord controleerbaar is en niet zomaar geloofd hoeft te worden. En een afgebakende taak met echte data eronder, in plaats van een algemeen model dat over alles een mening heeft. Een AI die op jouw eigen, gecontroleerde bronnen werkt en netjes laat zien waar een antwoord vandaan komt, is iets heel anders dan een chatbot die uit het niets put. Dat is het verschil tussen verantwoord gereedschap en digitale kwakzalverij.
AI inzetten waar hij sterk is, en een mens neerzetten waar de inzet te hoog is om te gokken: dat is geen voorzichtigheid, dat is strategie.
