GPU-rig met grafische kaarten in een wit-grijze serverruimte

Open-weight of cloud-API: wat kost AI echt per miljoen tokens

ArtikelAlisina NawabiAlisina Nawabi17 juni · 17:007 min leestijd

Open-weight AI heet gratis, maar de rekening verhuist alleen: van een maandfactuur naar een GPU die dag en nacht stroom vreet. Ik reken voor wanneer self-hosting zich echt terugverdient en wanneer de cloud wint.

"Open-weight modellen zijn gratis." Die zin hoor ik de laatste maanden bij bijna elke ondernemer die zijn AI-rekening ziet oplopen. En het klopt, op precies één woord na. De gewichten van een model als DeepSeek, Kimi of MiniMax mag je vrij downloaden, draaien en aanpassen. Maar gratis te downloaden is iets heel anders dan gratis te gebruiken. De rekening verdwijnt niet, hij verhuist: van een maandelijkse API-factuur naar een grafische kaart die dag en nacht stroom vreet, of je hem nu volledig benut of niet.

Mijn stelling is simpel. Voor sporadisch en zelfs gemiddeld gebruik is een cloud-API bijna altijd goedkoper, en het punt waarop zelf hosten zich terugverdient ligt veel hoger dan de "open is gratis"-marketing je laat geloven. Wie de werkelijke kosten wil kennen, moet stoppen met staren naar de prijs per miljoen tokens van het model, en beginnen met kijken naar de benutting van de machine eronder. Dat is geen technisch detail. Het is het hele verhaal.

Het woord 'gratis' slaat op de licentie, niet op de rekenkracht

Wat een open-weight model je écht geeft, is vrijheid van de leverancier. Geen maandabonnement dat stilletjes duurder wordt, geen model dat zonder waarschuwing wordt teruggetrokken, geen data die je muren verlaat. Dat is reëel en waardevol, en het is precies waarom bedrijven als Harvey en Microsoft uitwijken naar goedkopere open-weight en Chinese modellen nu hun AI-kosten oplopen. Microsoft gaat zelfs zo ver dat het DeepSeek V4 overweegt als goedkoper alternatief voor Claude in Copilot Cowork.

Maar de licentie is gratis, de rekenkracht niet. Een groot taalmodel draait op dure GPU's, en daar zit het hele kostenprobleem. Een API-aanbieder verdeelt één zo'n kaart over honderden klanten tegelijk en verwerkt hun vragen in batches, waardoor die GPU vrijwel onafgebroken op volle capaciteit draait. Jouw eigen kaart draait voor jou alleen. Een A100 huur je voor ergens tussen 1,29 dollar per uur bij een gespecialiseerde aanbieder en bijna 3,70 dollar per uur op een grote cloud, en kopen kost al gauw 15.000 dollar per stuk. Staat je model 's nachts en in het weekend stil, dan betaal je gewoon door. Die leegloop is de stilste en duurste post op de hele rekening.

Wat AI echt kost: kijk naar de TCO, niet naar de tokenprijs

Total Cost of Ownership (TCO) is de optelsom van alle kosten over de hele levensduur van een keuze, niet alleen de zichtbare prijs vooraf. Bij self-hosted AI zit het echte geld onder de waterlijn: de machine zelf, de mate waarin je hem benut, het onderhoud, en het opvangen van piekmomenten. De tokenprijs is slechts het topje.

Vier kostenlagen bepalen samen de uitkomst, en de marketing laat er meestal drie weg:

  • Rekenkracht: de GPU is de hoofdmoot. Een instapkaart als een RTX 5090 kost rond de 2.000 dollar, een serieuze A100 het zevenvoudige, en huren rekent per uur door of je nu rekent of niet.
  • Benutting: dit is de breekijzer-factor. Bij lage benutting kost zelf hosten al snel 30 tot 40 dollar per miljoen tokens, en op een grote cloud loopt dat op tot boven de 100 dollar, terwijl een API dezelfde tokens voor centen levert.
  • Engineering en beheer: iemand moet het draaiend houden, modellen updaten, de boel beveiligen en bereikbaar zijn als het 's nachts omvalt. Dat is de best verborgen en vaak duurste post van allemaal.
  • Schaal en pieken: je moet capaciteit kopen voor je drukste moment, niet je gemiddelde. Die overcapaciteit staat de rest van de week niets te doen.

De kern: een API zet al die vaste lasten om in een variabele prijs die meebeweegt met je gebruik. Zelf hosten draait dat om, je betaalt vooraf voor capaciteit en moet hem daarna vol zien te krijgen.

Het omslagpunt ligt hoger dan de marketing belooft

Er is wel degelijk een punt waarop eigen ijzer wint, maar dat punt hangt volledig af van waartegen je rekent. En juist daar gaat de "gratis"-vergelijking de mist in.

Vergelijk je met de premium-API's, de duurste frontier-modellen, dan kantelt het snel. Een academische kosten-batenanalyse over 54 scenario's vond dat een klein open model op een kaart van rond de 2.000 dollar zich tegenover een premium-model als Claude Opus binnen enkele maanden terugverdient, terwijl middelgrote modellen er ongeveer twee jaar over doen en de grootste pas na vijf jaar rendabel worden. Diezelfde studie trekt de nuchtere conclusie: zelf hosten loont alleen voor organisaties met extreem hoge volumes (vanaf zo'n 50 miljoen tokens per maand) of harde eisen aan dataresidentie.

Maar hier zit de denkfout die de meeste bedrijven maken. Je hoeft geen eigen GPU te kopen om aan dure premium-prijzen te ontsnappen. Je kunt gewoon een goedkoper model via een API gebruiken. En tegenover die goedkope API's verlies je het met zelf hosten bijna altijd. Bij een volume van een miljoen tokens per dag kan eigen ijzer al snel honderd keer duurder uitvallen dan diezelfde tokens via een commodity-API, simpelweg omdat jij die ene kaart nooit zo vol krijgt als een aanbieder die honderden klanten bundelt. Een recente TCO-analyse plaatst het echte omslagpunt tegenover een open-weight API pas rond de 15 tot 20 miljoen tokens per dag. Dat is een volume dat de meeste MKB-bedrijven, en zelfs veel afdelingen van grote organisaties, bij lange na niet halen.

En de prijzen van die API's blijven kelderen. Volgens prijsdata van Artificial Analysis serveert een model als DeepSeek V4 Flash inmiddels rond zes cent per miljoen tokens, terwijl een MiniMax-model zo'n 90% van de codeerkwaliteit van Claude Opus levert voor ongeveer 7% van de kosten. Tegen die achtergrond is je eigen GPU laten leeglopen geen besparing, maar een kostenpost met een hobby-luchtje.

De tegenwerping: en soevereiniteit en privacy dan?

De sterkste tegenwerping is dat kosten niet de enige as zijn, en die klopt. Soms is zelf hosten de juiste keuze ondanks een hogere tokenprijs. Als je met gevoelige of AVG-geraakte data werkt, kan het doorslaggevend zijn dat geen enkele byte je eigen omgeving verlaat. En er is het geopolitieke risico: de allergoedkoopste modellen komen uit China, en bij DeepSeek, dat een eerste externe ronde van 7,4 miljard dollar sloot, krijgt alleen de Chinese staat stemrecht. Een model dat je zelf draait kan niemand morgen intrekken of duurder maken.

Dat is geen kleine voetnoot. Ik bouw zelf vaker self-hosted dan cloud, juist om die controle over data en langetermijnkosten. Maar ik doe dat met open ogen: dan kies ik voor soevereiniteit, niet omdat het per token goedkoper is. Wie self-hosting verkoopt als pure besparing voor doorsnee-volumes, verkoopt een illusie. De eerlijke afweging is controle en privacy tegen kosten en gemak, niet gratis tegen duur.

De juiste vraag is niet 'API of zelf hosten'

De valse tegenstelling is precies het probleem. De vraag is niet of je een model in de cloud aanroept of op eigen ijzer draait, maar welk model je tegen welke benutting gebruikt, en hoe makkelijk je daartussen kunt wisselen. Dat is een ontwerpkeuze, geen geloofskwestie.

In de praktijk betekent dat: begin op een goedkope API, meet je werkelijke tokenverbruik een paar maanden, en overweeg eigen capaciteit pas als je structureel richting die tientallen miljoenen tokens per dag gaat of als privacy het afdwingt. Zet je modellen achter een abstractielaag, zodat je van een open codeermodel als Kimi K2.7 dat fors onder GPT-5.5 en Claude duikt kunt overstappen op een self-hosted MiniMax M3 voor het MKB zonder je hele applicatie te herschrijven. Hoe je zo'n leverancier-onafhankelijke AI-stack met een router opbouwt, heb ik apart uitgewerkt. En dezelfde discipline waarmee je de verborgen TCO van je SaaS-stapel blootlegt, geldt hier dubbel: tel alles wat onder de waterlijn zit mee, niet alleen het bedrag op de factuur.

De vraag is dus nooit of een model gratis is. De vraag is wat het je over drie jaar werkelijk kost om het te bezitten, leeglopen, beheer en wakkere nachten meegerekend. Wie dat eerlijk uitrekent, ontdekt meestal dat de goedkoopste optie niet de gratis is, maar de slim gekozene.

Veelgestelde vragen

Alisina Nawabi
Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

Bij FLOH ontwerp en bouw ik complete software, integraties en AI op maat, van eerste idee tot werkend product, en jij blijft eigenaar. Hier schrijf ik nuchter over bouwen met AI en software voor ondernemers en organisaties.

Meer over mij

Gerelateerde artikelen

Microsoft overweegt DeepSeek V4 als goedkoper alternatief voor Claude in Copilot CoworkNieuws

Microsoft overweegt DeepSeek V4 als goedkoper alternatief voor Claude in Copilot Cowork

Microsoft onderzoekt een zelf-gehoste, bijgestelde versie van DeepSeek V4 als goedkopere motor onder Copilot Cowork, naast het dure Claude van Anthropic. Een keuze met gevolgen voor je AI-kosten en je modelafhankelijkheid.

Lees artikel
Kimi K2.7-Code: een open codeermodel dat fors onder GPT-5.5 en Claude duiktNieuws

Kimi K2.7-Code: een open codeermodel dat fors onder GPT-5.5 en Claude duikt

Het Chinese Moonshot AI bracht Kimi K2.7-Code uit, een open-weight codeermodel met 1 biljoen parameters. Op de prijs per token gaat het tot 12 keer onder de duurste Claude. Wat betekent dat voor jouw bedrijf?

Lees artikel
GLM-5.2 klopt GPT-5.5 op coding, en kost een zesdeNieuws

GLM-5.2 klopt GPT-5.5 op coding, en kost een zesde

Het open-weight model GLM-5.2 van Z.ai verslaat GPT-5.5 op meerdere langlopende coding-benchmarks tegen ongeveer een zesde van de prijs. Wat dat betekent voor jouw AI-codeerkosten.

Lees artikel
Zo bouw je een leverancier-onafhankelijke AI-stackGids

Zo bouw je een leverancier-onafhankelijke AI-stack

Eén AI-leverancier die zijn prijzen verhoogt of een model offline haalt, kan je operatie platleggen. Ik laat je een dunne routerlaag bouwen met open-weight achtervang en budgetbewaking, zodat je nooit aan één aanbieder vastzit.

Lees artikel
AI-agenten jagen de tokenkosten omhoog: zo houd je je AI-rekening in toomNieuws

AI-agenten jagen de tokenkosten omhoog: zo houd je je AI-rekening in toom

Bedrijven schrikken van hun AI-rekening nu agenten en redeneermodellen enorm veel tokens verstoken. Uber brandde zijn jaarbudget in vier maanden op. Wat betekent dat voor jouw bedrijf?

Lees artikel
AI-kosten lopen op: bedrijven wijken uit naar open source en Chinese modellenNieuws

AI-kosten lopen op: bedrijven wijken uit naar open source en Chinese modellen

AI-abonnementen worden snel duurder terwijl de prijs per token nauwelijks meedaalt. Steeds meer bedrijven schuiven routinetaken naar goedkopere open-weight of Chinese modellen om hun budget te rekken.

Lees artikel