Een rekenmachine bovenop een stapel bankbiljetten

AI-agenten jagen de tokenkosten omhoog: zo houd je je AI-rekening in toom

NieuwsAlisina NawabiAlisina Nawabi14 juni · 20:126 min leestijd

Bedrijven schrikken van hun AI-rekening nu agenten en redeneermodellen enorm veel tokens verstoken. Uber brandde zijn jaarbudget in vier maanden op. Wat betekent dat voor jouw bedrijf?

De prijs van AI per token daalt al jaren, en toch lopen de rekeningen op in plaats van omlaag. De reden is een nieuwe kostenpost die los staat van je maandabonnement: AI-agenten en redeneermodellen die per opdracht enorme hoeveelheden tokens verstoken. Een token is de kleinste eenheid tekst die een model verwerkt, en je betaalt per stuk. Een gewone chatvraag kost een paar duizend tokens. Een agent die zelfstandig redeneert, fouten corrigeert, gereedschappen aanstuurt en context inlaadt, verbruikt al snel het honderdvoudige. Dat is precies de valkuil die nu bij grote bedrijven zichtbaar wordt, en die ook voor Nederlandse organisaties relevant is zodra ze agentische AI inzetten.

Waarom de rekening stijgt terwijl de prijs daalt

Het lijkt tegenstrijdig, maar de cijfers leggen het uit. Volgens een analyse van adviesbureau Bain & Company daalde de prijs per token met 50 procent tussen december 2024 en december 2025, terwijl het verbruik in dezelfde periode 4,5 keer hoger lag. Netto blijven de kosten per taak dus ongeveer gelijk, en de totale rekening stijgt mee met het gebruik.

Bain wijst drie krachten aan die de prijsdaling opvreten. Ten eerste stappen organisaties telkens over naar het nieuwste, duurste model in plaats van een oudere, goedkopere versie te houden. Ten tweede verbruikt complex meerstapswerk steeds meer tokens per opdracht. Ten derde groeit het aantal toepassingen zodra een team merkt dat iets werkt. In software engineering is het tokenverbruik nu nog 1 tot 2 procent van de loonkosten, maar Bain verwacht dat dit in functies als verkoop, support en operations kan oplopen tot 20 a 30 procent.

Budgetten die in een kwartaal verdampen

De schrik zit in de praktijkvoorbeelden. Ride-hailingbedrijf Uber verbruikte zijn complete AI-codeerbudget voor 2026 binnen vier maanden en legde daarna een limiet op van 1.500 dollar per tool per medewerker per maand. Bij Meta verbrandden medewerkers 60 biljoen tokens in dertig dagen via een interne ranglijst genaamd Claudeonomics, die verbruik tot een spelletje maakte met titels als Token Legend en uiteindelijk werd stilgelegd.

Zelfs OpenAI-topman Sam Altman erkent het probleem. In een gesprek met OpenAI-directeur Denise Dresser noemde Altman de kosten plots een huge issue en haalde hij een klant aan die zei: mijn bedrijf gaf het hele jaarbudget voor 2026 al in het eerste kwartaal uit. De grootste tokenverbruiker bij OpenAI draait volgens hem rond de 100 miljard tokens per maand.

Het verschilt wel van de stijgende abonnementskosten die bedrijven naar goedkopere open-source en Chinese modellen drijven: abonnementen zijn een vaste post die je kent, terwijl tokenkosten meebewegen met elk agent dat je laat draaien. Het verschil: abonnementen zijn een vaste post die je kent, terwijl tokenkosten meebewegen met elk agent dat je laat draaien. Dat maakt ze lastiger te voorspellen en makkelijker te onderschatten.

Het echte probleem: verbruik meten zonder rendement

Veel organisaties belonen zichtbaar AI-gebruik in plaats van resultaat. Dat is de kern van wat critici tokenmaxxing noemen: zo veel mogelijk tokens verstoken als prestige, zonder dat het werk er beter van wordt. Een onderzoeker van Rutgers University vat het bondig samen: de kosten zijn duidelijk, het rendement is veel moeilijker te meten. Salesforce experimenteert daarom met een alternatieve maatstaf, de Agentic Work Unit, die kijkt naar afgerond werk in plaats van naar verbruikte tokens.

De oplossing zit niet in minder AI, maar in slimmere architectuur. Bain noemt het voorbeeld van AT&T, dat zijn kosten met 90 procent verlaagde en de doorvoer verdrievoudigde door grote agenten taken te laten doorsturen naar kleinere, gespecialiseerde modellen in plaats van alles door het duurste frontiermodel te jagen. Niet elke vraag heeft het zwaarste redeneermodel nodig.

Wat dit betekent voor jouw bedrijf

Als je agentische AI inzet of overweegt, behandel tokens dan als een variabele kostenpost, niet als een vast abonnement. Drie nuchtere stappen helpen direct. Stel een budget en een limiet in voordat je een agent loslaat, zodat een uitschieter geen maandsalaris kost. Meet uitkomsten, geen verbruik: een agent die veel tokens gebruikt maar weinig oplevert, is duurder dan hij lijkt. En kies bewust per taak het juiste model, met een goedkoper of self-hosted open-weight model voor routinewerk en het zware model alleen waar het echt nodig is.

AI-agents leveren pas echt waarde bij een afgebakende taak met een mens in de lus, en dat geldt ook voor hoe je ze kostenbewust inzet. Een open codeermodel zoals Kimi K2.7-Code, dat fors goedkoper is dan GPT-5.5 en Claude, laat zien dat de rekening drastisch omlaag kan zonder dat je inlevert op kwaliteit. En zoals bij elke tool geldt: reken niet alleen de licentie, maar ook de verborgen total cost of ownership van je hele softwarestapel.

Ik bouw AI-oplossingen liefst kostenbewust: agenten met een duidelijk afgebakende taak, slimme routering naar het goedkoopste model dat de klus aankan, en waar het kan self-hosted, zodat je niet voor elke redeneerstap een externe meter laat doortikken. Zo blijft AI een hefboom in plaats van een lekkende kraan op je begroting.

Veelgestelde vragen

Alisina Nawabi
Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

Bij FLOH ontwerp en bouw ik complete software, integraties en AI op maat, van eerste idee tot werkend product, en jij blijft eigenaar. Hier schrijf ik nuchter over bouwen met AI en software voor ondernemers en organisaties.

Meer over mij

Genoemde integraties

Dit artikel noemt deze tools. Ik koppel ze op maat aan je eigen systemen.

Gerelateerde artikelen

De dood van de chatbot, geboorte agentArtikel

De dood van de chatbot, geboorte agent

OpenAI's acqui-hire van Steinberger markeert het einde van de passieve chatbot en de geboorte van de actieve AI-agent. Zo zet OpenClaw de markt op zijn kop.

Lees artikel
GLM-5.2 klopt GPT-5.5 op coding, en kost een zesdeNieuws

GLM-5.2 klopt GPT-5.5 op coding, en kost een zesde

Het open-weight model GLM-5.2 van Z.ai verslaat GPT-5.5 op meerdere langlopende coding-benchmarks tegen ongeveer een zesde van de prijs. Wat dat betekent voor jouw AI-codeerkosten.

Lees artikel
Zo bouw je een leverancier-onafhankelijke AI-stackGids

Zo bouw je een leverancier-onafhankelijke AI-stack

Eén AI-leverancier die zijn prijzen verhoogt of een model offline haalt, kan je operatie platleggen. Ik laat je een dunne routerlaag bouwen met open-weight achtervang en budgetbewaking, zodat je nooit aan één aanbieder vastzit.

Lees artikel
Kimi K2.7-Code: een open codeermodel dat fors onder GPT-5.5 en Claude duiktNieuws

Kimi K2.7-Code: een open codeermodel dat fors onder GPT-5.5 en Claude duikt

Het Chinese Moonshot AI bracht Kimi K2.7-Code uit, een open-weight codeermodel met 1 biljoen parameters. Op de prijs per token gaat het tot 12 keer onder de duurste Claude. Wat betekent dat voor jouw bedrijf?

Lees artikel
Microsoft lanceert eigen AI-modellen, en waarom dat goed nieuws is voor het MKBNieuws

Microsoft lanceert eigen AI-modellen, en waarom dat goed nieuws is voor het MKB

Microsoft onthulde op Build 2026 zeven eigen MAI-modellen om minder afhankelijk te worden van OpenAI, met de claim tot tien keer goedkoper te zijn. We duiden het feit en wat het concreet betekent voor jouw bedrijf.

Lees artikel
OpenAI brengt Codex naar ChatGPT: AI die zelf code schrijft, nuchter bekekenNieuws

OpenAI brengt Codex naar ChatGPT: AI die zelf code schrijft, nuchter bekeken

OpenAI kondigde op 2 juni 2026 aan dat Codex, zijn AI die zelf code schrijft, naar de ChatGPT-app komt met zes rol-plugins. Wat betekent 'AI die bouwt' echt voor het MKB?

Lees artikel