Waarom stijgt mijn AI-rekening terwijl tokens goedkoper worden?

De prijs per token daalt, maar het verbruik stijgt sneller. Volgens Bain daalde de tokenprijs 50 procent tussen eind 2024 en eind 2025, terwijl het verbruik 4,5 keer hoger lag. Agenten die redeneren en gereedschappen aansturen, gebruiken veel meer tokens per opdracht dan een gewone chatvraag.

Tokenmaxxing is het zo veel mogelijk verbruiken van tokens als prestige, zonder dat het werk er beter van wordt. Het wijst op een onderliggend probleem: organisaties belonen zichtbaar AI-gebruik in plaats van het daadwerkelijke resultaat.

Hoe houd ik de tokenkosten van AI-agenten onder controle?

Behandel tokens als een variabele kostenpost: stel een budget en limiet in voordat je een agent loslaat, meet uitkomsten in plaats van verbruik, en kies per taak het juiste model. Routinewerk kan vaak naar een goedkoper of self-hosted open-weight model, het zware redeneermodel alleen waar het echt nodig is.

AI-agenten jagen tokenkosten omhoog: zo blijf je in budget

Bedrijven schrikken van hun AI-rekening nu agenten en redeneermodellen enorm veel tokens verstoken. Uber brandde zijn jaarbudget in vier maanden op. Wat betekent dat voor jouw bedrijf?

De prijs van AI per token daalt al jaren, en toch lopen de rekeningen op in plaats van omlaag. De reden is een nieuwe kostenpost die los staat van je maandabonnement: AI-agenten en redeneermodellen die per opdracht enorme hoeveelheden tokens verstoken. Een token is de kleinste eenheid tekst die een model verwerkt, en je betaalt per stuk. Een gewone chatvraag kost een paar duizend tokens. Een agent die zelfstandig redeneert, fouten corrigeert, gereedschappen aanstuurt en context inlaadt, verbruikt al snel het honderdvoudige. Dat is precies de valkuil die nu bij grote bedrijven zichtbaar wordt, en die ook voor Nederlandse organisaties relevant is zodra ze agentische AI inzetten.

Waarom de rekening stijgt terwijl de prijs daalt

Het lijkt tegenstrijdig, maar de cijfers leggen het uit. Volgens een analyse van adviesbureau Bain & Company daalde de prijs per token met 50 procent tussen december 2024 en december 2025, terwijl het verbruik in dezelfde periode 4,5 keer hoger lag. Netto blijven de kosten per taak dus ongeveer gelijk, en de totale rekening stijgt mee met het gebruik.

Bain wijst drie krachten aan die de prijsdaling opvreten. Ten eerste stappen organisaties telkens over naar het nieuwste, duurste model in plaats van een oudere, goedkopere versie te houden. Ten tweede verbruikt complex meerstapswerk steeds meer tokens per opdracht. Ten derde groeit het aantal toepassingen zodra een team merkt dat iets werkt. In software engineering is het tokenverbruik nu nog 1 tot 2 procent van de loonkosten, maar Bain verwacht dat dit in functies als verkoop, support en operations kan oplopen tot 20 a 30 procent.

Budgetten die in een kwartaal verdampen

De schrik zit in de praktijkvoorbeelden. Ride-hailingbedrijf Uber verbruikte zijn complete AI-codeerbudget voor 2026 binnen vier maanden en legde daarna een limiet op van 1.500 dollar per tool per medewerker per maand. Bij Meta verbrandden medewerkers 60 biljoen tokens in dertig dagen via een interne ranglijst genaamd Claudeonomics, die verbruik tot een spelletje maakte met titels als Token Legend en uiteindelijk werd stilgelegd.

Zelfs OpenAI-topman Sam Altman erkent het probleem. In een gesprek met OpenAI-directeur Denise Dresser noemde Altman de kosten plots een huge issue en haalde hij een klant aan die zei: mijn bedrijf gaf het hele jaarbudget voor 2026 al in het eerste kwartaal uit. De grootste tokenverbruiker bij OpenAI draait volgens hem rond de 100 miljard tokens per maand.

Het verschilt wel van de stijgende abonnementskosten die bedrijven naar goedkopere open-source en Chinese modellen drijven: abonnementen zijn een vaste post die je kent, terwijl tokenkosten meebewegen met elk agent dat je laat draaien. Het verschil: abonnementen zijn een vaste post die je kent, terwijl tokenkosten meebewegen met elk agent dat je laat draaien. Dat maakt ze lastiger te voorspellen en makkelijker te onderschatten.

Het echte probleem: verbruik meten zonder rendement

Veel organisaties belonen zichtbaar AI-gebruik in plaats van resultaat. Dat is de kern van wat critici tokenmaxxing noemen: zo veel mogelijk tokens verstoken als prestige, zonder dat het werk er beter van wordt. Een onderzoeker van Rutgers University vat het bondig samen: de kosten zijn duidelijk, het rendement is veel moeilijker te meten. Salesforce experimenteert daarom met een alternatieve maatstaf, de Agentic Work Unit, die kijkt naar afgerond werk in plaats van naar verbruikte tokens.

De oplossing zit niet in minder AI, maar in slimmere architectuur. Bain noemt het voorbeeld van AT&T, dat zijn kosten met 90 procent verlaagde en de doorvoer verdrievoudigde door grote agenten taken te laten doorsturen naar kleinere, gespecialiseerde modellen in plaats van alles door het duurste frontiermodel te jagen. Niet elke vraag heeft het zwaarste redeneermodel nodig.

Wat dit betekent voor jouw bedrijf

Als je agentische AI inzet of overweegt, behandel tokens dan als een variabele kostenpost, niet als een vast abonnement. Drie nuchtere stappen helpen direct. Stel een budget en een limiet in voordat je een agent loslaat, zodat een uitschieter geen maandsalaris kost. Meet uitkomsten, geen verbruik: een agent die veel tokens gebruikt maar weinig oplevert, is duurder dan hij lijkt. En kies bewust per taak het juiste model, met een goedkoper of self-hosted open-weight model voor routinewerk en het zware model alleen waar het echt nodig is.

AI-agents leveren pas echt waarde bij een afgebakende taak met een mens in de lus, en dat geldt ook voor hoe je ze kostenbewust inzet. Een open codeermodel zoals Kimi K2.7-Code, dat fors goedkoper is dan GPT-5.5 en Claude, laat zien dat de rekening drastisch omlaag kan zonder dat je inlevert op kwaliteit. En zoals bij elke tool geldt: reken niet alleen de licentie, maar ook de verborgen total cost of ownership van je hele softwarestapel.

Ik bouw AI-oplossingen liefst kostenbewust: agenten met een duidelijk afgebakende taak, slimme routering naar het goedkoopste model dat de klus aankan, en waar het kan self-hosted, zodat je niet voor elke redeneerstap een externe meter laat doortikken. Zo blijft AI een hefboom in plaats van een lekkende kraan op je begroting.

Veelgestelde vragen

AI AI-agents AI-kosten Vendor lock-in Self-hosted Open source MKB

AI-agenten jagen de tokenkosten omhoog: zo houd je je AI-rekening in toom

Waarom de rekening stijgt terwijl de prijs daalt

Budgetten die in een kwartaal verdampen

Het echte probleem: verbruik meten zonder rendement

Wat dit betekent voor jouw bedrijf

Veelgestelde vragen

Verken verder

In dit artikel

Thema's

Genoemde integraties

Gerelateerde artikelen

De dood van de chatbot, geboorte agent

GLM-5.2 klopt GPT-5.5 op coding, en kost een zesde

Zo bouw je een leverancier-onafhankelijke AI-stack

Kimi K2.7-Code: een open codeermodel dat fors onder GPT-5.5 en Claude duikt

Microsoft lanceert eigen AI-modellen, en waarom dat goed nieuws is voor het MKB

OpenAI brengt Codex naar ChatGPT: AI die zelf code schrijft, nuchter bekeken