Zijn open-weight modellen echt gratis?

De gewichten en licentie zijn gratis, maar het draaien niet. Een groot taalmodel vraagt dure GPU's die ook stroom en geld kosten als ze stilstaan, plus beheer en onderhoud.

Vanaf welk volume wordt self-hosting goedkoper dan een cloud-API?

Tegenover dure premium-modellen kan een klein open model zich binnen maanden terugverdienen, maar tegenover goedkope open-weight API's ligt het omslagpunt pas rond 15 tot 20 miljoen tokens per dag.

Total Cost of Ownership is de optelsom van alle kosten over de levensduur: niet alleen de tokenprijs, maar ook de hardware, de benutting van de GPU, engineering en beheer, en het opvangen van piekbelasting.

Wanneer is zelf hosten dan wel de juiste keuze?

Vooral bij harde eisen aan dataresidentie of privacy, bij extreem hoge volumes, of als je onafhankelijk wilt zijn van een leverancier die de prijs kan verhogen of het model kan terugtrekken.

Wat kost AI echt: open-weight vs cloud-API

"Open-weight modellen zijn gratis." Die zin hoor ik de laatste maanden bij bijna elke ondernemer die zijn AI-rekening ziet oplopen. En het klopt, op precies één woord na. De gewichten van een model als DeepSeek, Kimi of MiniMax mag je vrij downloaden, draaien en aanpassen. Maar gratis te downloaden is iets heel anders dan gratis te gebruiken. De rekening verdwijnt niet, hij verhuist: van een maandelijkse API-factuur naar een grafische kaart die dag en nacht stroom vreet, of je hem nu volledig benut of niet.

Mijn stelling is simpel. Voor sporadisch en zelfs gemiddeld gebruik is een cloud-API bijna altijd goedkoper, en het punt waarop zelf hosten zich terugverdient ligt veel hoger dan de "open is gratis"-marketing je laat geloven. Wie de werkelijke kosten wil kennen, moet stoppen met staren naar de prijs per miljoen tokens van het model, en beginnen met kijken naar de benutting van de machine eronder. Dat is geen technisch detail. Het is het hele verhaal.

Het woord 'gratis' slaat op de licentie, niet op de rekenkracht

Wat een open-weight model je écht geeft, is vrijheid van de leverancier. Geen maandabonnement dat stilletjes duurder wordt, geen model dat zonder waarschuwing wordt teruggetrokken, geen data die je muren verlaat. Dat is reëel en waardevol, en het is precies waarom bedrijven als Harvey en Microsoft uitwijken naar goedkopere open-weight en Chinese modellen nu hun AI-kosten oplopen. Microsoft gaat zelfs zo ver dat het DeepSeek V4 overweegt als goedkoper alternatief voor Claude in Copilot Cowork.

Maar de licentie is gratis, de rekenkracht niet. Een groot taalmodel draait op dure GPU's, en daar zit het hele kostenprobleem. Een API-aanbieder verdeelt één zo'n kaart over honderden klanten tegelijk en verwerkt hun vragen in batches, waardoor die GPU vrijwel onafgebroken op volle capaciteit draait. Jouw eigen kaart draait voor jou alleen. Een A100 huur je voor ergens tussen 1,29 dollar per uur bij een gespecialiseerde aanbieder en bijna 3,70 dollar per uur op een grote cloud, en kopen kost al gauw 15.000 dollar per stuk. Staat je model 's nachts en in het weekend stil, dan betaal je gewoon door. Die leegloop is de stilste en duurste post op de hele rekening.

Wat AI echt kost: kijk naar de TCO, niet naar de tokenprijs

Total Cost of Ownership (TCO) is de optelsom van alle kosten over de hele levensduur van een keuze, niet alleen de zichtbare prijs vooraf. Bij self-hosted AI zit het echte geld onder de waterlijn: de machine zelf, de mate waarin je hem benut, het onderhoud, en het opvangen van piekmomenten. De tokenprijs is slechts het topje.

Vier kostenlagen bepalen samen de uitkomst, en de marketing laat er meestal drie weg:

Rekenkracht: de GPU is de hoofdmoot. Een instapkaart als een RTX 5090 kost rond de 2.000 dollar, een serieuze A100 het zevenvoudige, en huren rekent per uur door of je nu rekent of niet.
Benutting: dit is de breekijzer-factor. Bij lage benutting kost zelf hosten al snel 30 tot 40 dollar per miljoen tokens, en op een grote cloud loopt dat op tot boven de 100 dollar, terwijl een API dezelfde tokens voor centen levert.
Engineering en beheer: iemand moet het draaiend houden, modellen updaten, de boel beveiligen en bereikbaar zijn als het 's nachts omvalt. Dat is de best verborgen en vaak duurste post van allemaal.
Schaal en pieken: je moet capaciteit kopen voor je drukste moment, niet je gemiddelde. Die overcapaciteit staat de rest van de week niets te doen.

De kern: een API zet al die vaste lasten om in een variabele prijs die meebeweegt met je gebruik. Zelf hosten draait dat om, je betaalt vooraf voor capaciteit en moet hem daarna vol zien te krijgen.

Het omslagpunt ligt hoger dan de marketing belooft

Er is wel degelijk een punt waarop eigen ijzer wint, maar dat punt hangt volledig af van waartegen je rekent. En juist daar gaat de "gratis"-vergelijking de mist in.

Vergelijk je met de premium-API's, de duurste frontier-modellen, dan kantelt het snel. Een academische kosten-batenanalyse over 54 scenario's vond dat een klein open model op een kaart van rond de 2.000 dollar zich tegenover een premium-model als Claude Opus binnen enkele maanden terugverdient, terwijl middelgrote modellen er ongeveer twee jaar over doen en de grootste pas na vijf jaar rendabel worden. Diezelfde studie trekt de nuchtere conclusie: zelf hosten loont alleen voor organisaties met extreem hoge volumes (vanaf zo'n 50 miljoen tokens per maand) of harde eisen aan dataresidentie.

Maar hier zit de denkfout die de meeste bedrijven maken. Je hoeft geen eigen GPU te kopen om aan dure premium-prijzen te ontsnappen. Je kunt gewoon een goedkoper model via een API gebruiken. En tegenover die goedkope API's verlies je het met zelf hosten bijna altijd. Bij een volume van een miljoen tokens per dag kan eigen ijzer al snel honderd keer duurder uitvallen dan diezelfde tokens via een commodity-API, simpelweg omdat jij die ene kaart nooit zo vol krijgt als een aanbieder die honderden klanten bundelt. Een recente TCO-analyse plaatst het echte omslagpunt tegenover een open-weight API pas rond de 15 tot 20 miljoen tokens per dag. Dat is een volume dat de meeste MKB-bedrijven, en zelfs veel afdelingen van grote organisaties, bij lange na niet halen.

En de prijzen van die API's blijven kelderen. Volgens prijsdata van Artificial Analysis serveert een model als DeepSeek V4 Flash inmiddels rond zes cent per miljoen tokens, terwijl een MiniMax-model zo'n 90% van de codeerkwaliteit van Claude Opus levert voor ongeveer 7% van de kosten. Tegen die achtergrond is je eigen GPU laten leeglopen geen besparing, maar een kostenpost met een hobby-luchtje.

De tegenwerping: en soevereiniteit en privacy dan?

De sterkste tegenwerping is dat kosten niet de enige as zijn, en die klopt. Soms is zelf hosten de juiste keuze ondanks een hogere tokenprijs. Als je met gevoelige of AVG-geraakte data werkt, kan het doorslaggevend zijn dat geen enkele byte je eigen omgeving verlaat. En er is het geopolitieke risico: de allergoedkoopste modellen komen uit China, en bij DeepSeek, dat een eerste externe ronde van 7,4 miljard dollar sloot, krijgt alleen de Chinese staat stemrecht. Een model dat je zelf draait kan niemand morgen intrekken of duurder maken.

Dat is geen kleine voetnoot. Ik bouw zelf vaker self-hosted dan cloud, juist om die controle over data en langetermijnkosten. Maar ik doe dat met open ogen: dan kies ik voor soevereiniteit, niet omdat het per token goedkoper is. Wie self-hosting verkoopt als pure besparing voor doorsnee-volumes, verkoopt een illusie. De eerlijke afweging is controle en privacy tegen kosten en gemak, niet gratis tegen duur.

De juiste vraag is niet 'API of zelf hosten'

De valse tegenstelling is precies het probleem. De vraag is niet of je een model in de cloud aanroept of op eigen ijzer draait, maar welk model je tegen welke benutting gebruikt, en hoe makkelijk je daartussen kunt wisselen. Dat is een ontwerpkeuze, geen geloofskwestie.

In de praktijk betekent dat: begin op een goedkope API, meet je werkelijke tokenverbruik een paar maanden, en overweeg eigen capaciteit pas als je structureel richting die tientallen miljoenen tokens per dag gaat of als privacy het afdwingt. Zet je modellen achter een abstractielaag, zodat je van een open codeermodel als Kimi K2.7 dat fors onder GPT-5.5 en Claude duikt kunt overstappen op een self-hosted MiniMax M3 voor het MKB zonder je hele applicatie te herschrijven. Hoe je zo'n leverancier-onafhankelijke AI-stack met een router opbouwt, heb ik apart uitgewerkt. En dezelfde discipline waarmee je de verborgen TCO van je SaaS-stapel blootlegt, geldt hier dubbel: tel alles wat onder de waterlijn zit mee, niet alleen het bedrag op de factuur.

De vraag is dus nooit of een model gratis is. De vraag is wat het je over drie jaar werkelijk kost om het te bezitten, leeglopen, beheer en wakkere nachten meegerekend. Wie dat eerlijk uitrekent, ontdekt meestal dat de goedkoopste optie niet de gratis is, maar de slim gekozene.

Veelgestelde vragen

Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

AI zonder verrassingsrekening

Ik denk met je mee over welk model en welke opzet bij jouw volume passen, en ontwerp en realiseer end-to-end een AI-stack die je achteraf niet gegijzeld houdt aan één leverancier of een leeglopende GPU.

Meer informatie

Dit artikel is geproduceerd samen met het Agent Team. Meer over de redactie.

AI Open-weight Self-hosted Kosten MKB Vendor lock-in Strategie

Open-weight of cloud-API: wat kost AI echt per miljoen tokens

Het woord 'gratis' slaat op de licentie, niet op de rekenkracht

Wat AI echt kost: kijk naar de TCO, niet naar de tokenprijs

Het omslagpunt ligt hoger dan de marketing belooft

De tegenwerping: en soevereiniteit en privacy dan?

De juiste vraag is niet 'API of zelf hosten'

Veelgestelde vragen

AI zonder verrassingsrekening

Verder met dit onderwerp

API of zelf hosten: de echte kostenvergelijking

Verken verder

In dit artikel

Thema's

Concepten

Gerelateerde artikelen

Meituan brengt LongCat-2.0 uit: een open codeermodel van 1,6 biljoen parameters, getraind zonder Nvidia

Microsoft vervangt OpenAI en kroont GPT-5.6 in dezelfde week: je AI-leverancier kiezen is de verkeerde vraag

Het model onder je Copilot bepaalt wie je data ziet, niet het logo erboven

Microsoft test Kimi K3 om Copilot goedkoper te draaien

Welke privacy-veilige AI-chatbot voor je MKB: Proton Lumo, Mistral Le Chat of zelf hosten

Welk AI-model draait onder je SaaS, en kun je wisselen? Een inkoperschecklist