Man met bril controleert documenten aan een bureau

AI-hallucinaties zijn geen bug, maar een bedrijfsrisico

ArtikelAlisina NawabiAlisina Nawabi17 juni · 21:007 min leestijd

Verzonnen bronnen, onjuiste antwoorden, een ingetrokken rapport: AI hallucineert niet per ongeluk, het hoort bij de techniek. Wie output zakelijk inzet zonder verificatiestap, gokt met de eigen reputatie.

Toen KPMG in juni stilletjes zijn vlaggenschiprapport over agentic AI van de website haalde, was de ironie pijnlijk. Een rapport dat bedrijven moest overtuigen van de zegeningen van AI, bleek zelf grotendeels door AI verzonnen. Onderzoekers van GPTZero vonden dat slechts vijf van de vijfenveertig citaties klopten; de rest liep van verminkt en misleidend tot volledig gefabriceerd, inclusief case studies over klanten die nooit hadden plaatsgevonden.

De makkelijke reactie is: knullig, maar een uitzondering. Dat is precies de denkfout die ik wil bestrijden. Toen een van de grootste adviesbureaus ter wereld zijn rapport over agentic AI introk nadat de citaten verzonnen bleken, was dat geen toeval maar een voorbode. Mijn stelling is simpel: AI-hallucinaties zijn geen randverschijnsel of kinderziekte die met de volgende modelupdate verdwijnt. Ze zijn een structureel kenmerk van de techniek. En elke organisatie die AI-output zakelijk gebruikt zonder een ingebouwde verificatiestap, speelt Russisch roulette met haar reputatie.

Hallucineren is geen bug, het is hoe het systeem werkt

We noemen het "hallucinatie" alsof het een storing is, een foutje dat eruit gepatcht wordt. Dat frame is misleidend. Een taalmodel weet niet wat waar is; het voorspelt welk woord statistisch het meest waarschijnlijk volgt. Een vloeiende, overtuigende zin en een feitelijk correcte zin zijn voor zo'n systeem hetzelfde soort uitvoer. Het verschil dat voor jou alles bepaalt, bestaat voor het model niet.

Sterker nog: de manier waarop we deze modellen trainen beloont het gokken. Uit onderzoek van OpenAI blijkt dat hallucinaties blijven bestaan omdat de gangbare evaluaties "ik weet het niet" even hard afstraffen als een fout antwoord, waardoor zelfverzekerd raden de optimale strategie wordt. Een model dat eerlijk twijfel toont, scoort slechter op de benchmarks dan een model dat met overtuiging iets verzint. We hebben de systemen dus letterlijk geoptimaliseerd om liever stellig te liegen dan toe te geven dat ze het niet weten.

En dit is geen probleem van de goedkope chatbots. Onderzoekers van Stanford testten de dure, gespecialiseerde juridische AI-tools, met eigen bronnen en alles, en vonden dat zelfs die in ongeveer een op de zes vragen hallucineren, terwijl algemene chatbots op juridische vragen tussen de achtenvijftig en tweeentachtig procent van de tijd de plank missloegen. Bij precies het soort werk waar een verkeerd cijfer geld of een rechtszaak kost.

Waar de rekening landt

Verificatieschuld is het verschil tussen wat een AI-systeem beweert en wat iemand daadwerkelijk heeft gecontroleerd. Elke ongecontroleerde AI-output die je in een document, een mail of een beslissing laat belanden, bouwt die schuld op, onzichtbaar, tot een hallucinatie op het verkeerde moment de rekening presenteert. Die rekening landt op drie plekken:

  • Reputatie: het KPMG-rapport stond niet vol kleine typefouten maar vol verzonnen autoriteit. Voor een merk dat zijn hele waarde ontleent aan betrouwbaarheid, is dat de duurste fout die er is. Klanten vergeven traagheid; ze vergeven geen verzinsels die met jouw logo eronder de wereld in gaan.
  • Juridisch: de tijd dat je je achter "de AI deed het" kon verschuilen, is voorbij. Een Duitse rechter oordeelde dat Google aansprakelijk is voor de onjuiste beweringen in zijn AI-overzichten, omdat die overzichten Googles eigen woorden zijn, en verwierp expliciet het argument dat gebruikers het zelf maar moeten controleren. De output van jouw systeem is jouw verantwoordelijkheid.
  • Operationeel: het gevaarlijkste scenario staat niet in de krant. Het is de medewerker die een prijsberekening, een marktcijfer of een juridische clausule uit een chatbot overneemt, het plausibel vindt klinken, en er een beslissing op baseert. Geen schandaal, wel een verkeerd pad ingeslagen op basis van iets dat nooit bestond.

"Maar de modellen worden toch steeds beter?"

Dat is het sterkste tegenargument, en het klopt half. De modellen worden beter; de hallucinatiegraad daalt. Maar daar zit precies de adder. Naarmate de output overtuigender wordt, daalt je waakzaamheid sneller dan de foutgraad. Een model dat in negenennegentig van de honderd gevallen briljant is, traint jou om de honderdste keer ook te vertrouwen. De zeldzaamheid van de fout maakt hem juist gevaarlijker, want niemand kijkt nog kritisch mee.

En dan het echte tegenargument: mensen maken toch ook fouten? Zeker. Maar een mens dat iets niet zeker weet, aarzelt, hedged, zegt "dat zoek ik even na". Een taalmodel produceert een verzinsel met exact dezelfde vloeiende stelligheid als een feit. Het ontbreekt aan het signaal van twijfel waar we als lezers onbewust op vertrouwen. Daarbij kun je de schuld niet uitbesteden: toen de chatbot van Air Canada een rouwkorting verzon die niet bestond, oordeelde de rechter dat de luchtvaartmaatschappij gewoon aansprakelijk was, en verwierp het idee dat de chatbot een aparte entiteit zou zijn. De verantwoordelijkheid blijft bij jou, ook als de fout van de machine komt.

De verkeerde vraag, en de juiste

De vraag die ik bedrijven het vaakst hoor stellen, "kan ik deze AI vertrouwen?", is de verkeerde vraag. Het antwoord is namelijk altijd hetzelfde: nee, niet blind, nooit. De juiste vraag is: heb ik verificatie ingebouwd op de plekken waar een fout pijn doet?

Dat verschuift het probleem van het model naar het ontwerp van het werkproces eromheen. Een AI die antwoorden geeft zonder controleerbare bron is een gok; een AI die elk antwoord onderbouwt met de daadwerkelijke brondocumenten, zodat een mens het in seconden kan natrekken, is een hulpmiddel. Dat is geen modeltrucje maar een ontwerpkeuze, en precies waar een chatbot op je eigen data via RAG met traceerbare bronnen het verschil maakt met een kale chatbot. Hetzelfde geldt voor de basis eronder: een model hallucineert het hardst waar het de minste betrouwbare context heeft, en daarom begint betrouwbare AI bij je data op orde brengen, het saaie werk dat de meeste AI-projecten overslaan.

En de inzet stijgt snel. Zolang AI alleen suggesties doet die een mens nog leest, is een hallucinatie een fout die je kunt onderscheppen. Maar de hele beweging gaat richting autonomie, naar systemen die niet adviseren maar handelen. Wie de realistische blik op wat AI-agents nu al wel en niet aankunnen serieus neemt, ziet het probleem: een ongecontroleerde suggestie wordt dan een ongecontroleerde actie, een verzonnen bedrag dat niet in een rapport belandt maar in een echte transactie, of een afspraak die wordt nagekomen. Hoe meer beslissingsmacht je een model geeft, hoe duurder de momenten worden waarop het met volle overtuiging fantaseert. Autonomie zonder verificatie is geen efficiency, het is risico met een snelheidsknop.

Dit is ook waarom de kloof tussen een indrukwekkende demo en een systeem dat in productie standhoudt zo groot is. Een demo hoeft maar een keer indruk te maken; een AI-systeem dat de saaie vijfennegentig procent van de echte gevallen moet overleven moet ook fout kunnen gaan zonder schade aan te richten. Verificatie is geen rem op de innovatie. Het is wat AI van een leuk speeltje tot een instrument maakt waar je een bedrijf op durft te bouwen.

De organisaties die de komende jaren met AI winnen, zijn niet degene met het slimste model. Het zijn degene die het nuchterst zijn over wat het model niet kan, en die de controle inbouwen op de plek waar een verzinsel het duurst is. De rest leert het op de harde manier, met hun naam onder een rapport dat nooit had mogen verschijnen.

Veelgestelde vragen

Alisina Nawabi
Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

AI inzetten zonder gokwerk

Ik denk met je mee, ontwerp en bouw AI-oplossingen end-to-end waarin verificatie en traceerbare bronnen geen bijzaak zijn maar onderdeel van het ontwerp, zodat je op de output durft te bouwen.

Meer informatie

Genoemde integraties

Dit artikel noemt deze tools. Ik koppel ze op maat aan je eigen systemen.

Gerelateerde artikelen

Meta sluit zijn AI: Muse Spark blijft dicht en de open Llama-strategie sneuveltNieuws

Meta sluit zijn AI: Muse Spark blijft dicht en de open Llama-strategie sneuvelt

Een jaar na de miljardendeal met Alexandr Wang erkent Meta dat zijn open-source aanpak niet meer werkt. Muse Spark blijft gesloten. Wie Llama als vendor-neutraal alternatief had ingepland, moet nu opnieuw rekenen.

Lees artikel
Digitale kwakzalverij: de onbetrouwbaarheid van AI-gezondheidsadviesArtikel

Digitale kwakzalverij: de onbetrouwbaarheid van AI-gezondheidsadvies

Een chatbot klinkt als een arts, en juist dat is het gevaar. Wat recent onderzoek laat zien over AI en gezondheidsvragen, waarom het misgaat, en hoe je deze tools verantwoord inzet.

Lees artikel
G7-top eindigt met AI-pact: 'trusted partners' moeten toegang tot Amerikaanse modellen regelenNieuws

G7-top eindigt met AI-pact: 'trusted partners' moeten toegang tot Amerikaanse modellen regelen

De G7-top in Évian sloot woensdag af met een belofte tot nauwere AI-samenwerking. Een 'trusted partners'-platform moet bondgenoten weer toegang geven tot Amerikaanse modellen. Macron wil binnen een maand starten.

Lees artikel
Je zelfgehoste AI-gateway hardenen: van standaardinstellingen naar productie-veiligGids

Je zelfgehoste AI-gateway hardenen: van standaardinstellingen naar productie-veilig

Een AI-gateway als LiteLLM of Langflow staat standaard veel te open. Dit is het stappenplan om hem dicht te zetten: authenticatie, netwerk, sleutels, rate-limits, patches en monitoring.

Lees artikel
G7 bespreekt 'trusted partners' voor toegang tot Amerikaanse AI-modellenNieuws

G7 bespreekt 'trusted partners' voor toegang tot Amerikaanse AI-modellen

Op de G7-top in Evian praten leiders over een schema dat 'trusted partners' weer toegang geeft tot geavanceerde Amerikaanse AI-modellen. Een mogelijke uitweg uit de Anthropic-exportban, maar nog niets is zeker.

Lees artikel
Zo bouw je een leverancier-onafhankelijke AI-stackGids

Zo bouw je een leverancier-onafhankelijke AI-stack

Eén AI-leverancier die zijn prijzen verhoogt of een model offline haalt, kan je operatie platleggen. Ik laat je een dunne routerlaag bouwen met open-weight achtervang en budgetbewaking, zodat je nooit aan één aanbieder vastzit.

Lees artikel