Het Chinese Moonshot AI bracht Kimi K2.7-Code uit, een open-weight codeermodel met 1 biljoen parameters. Op de prijs per token gaat het tot 12 keer onder de duurste Claude. Wat betekent dat voor jouw bedrijf?
Het Chinese Moonshot AI heeft deze week Kimi K2.7-Code uitgebracht, een open-weight model dat speciaal is getraind om te programmeren. Het bijzondere zit niet zozeer in de benchmarks, maar in de prijs: per token rekent Moonshot een fractie van wat OpenAI en Anthropic vragen. Voor ondernemers die AI-codering of agent-workflows inzetten, is dat geen detail. Het verandert de rekensom.
Wat er precies is uitgekomen
Kimi K2.7-Code is een zogeheten Mixture-of-Experts-model met 1 biljoen parameters in totaal, waarvan er per token zo'n 32 miljard daadwerkelijk meedoen. Het verwerkt tot 256.000 tokens context in een keer, genoeg om een flinke codebase of een lang document in een prompt te proppen. De gewichten staan open op Hugging Face onder een aangepaste MIT-licentie, en je kunt het model zelf draaien via vLLM, SGLang of KTransformers.
Volgens Moonshot is K2.7-Code een duidelijke stap vooruit op zijn voorganger K2.6. Op de eigen Kimi Code Bench v2 ging de score van 50,9 naar 62,0, en op MCPMark Verified klopt het naar eigen zeggen Claude Opus 4.8 (81,1 tegen 76,4). Tegelijk is het eerlijk om te zeggen dat het model op de meeste standaard codeertests nog achter GPT-5.5 blijft. Dit is geen nieuwe nummer een, maar een sterk alternatief tegen een heel andere prijs.
De prijs is het echte nieuws
Via de Kimi-API kost K2.7-Code ongeveer 0,95 dollar per miljoen invoer-tokens en 4 dollar per miljoen uitvoer-tokens. Ter vergelijking, op basis van de tarieven die in de berichtgeving worden genoemd:
| Model | Invoer (per miljoen) | Uitvoer (per miljoen) |
|---|---|---|
| Kimi K2.7-Code | 0,95 dollar | 4 dollar |
| GPT-5.5 | 5 dollar | 30 dollar |
| Claude Opus 4.8 | 5 dollar | 25 dollar |
| Claude Fable 5 | 10 dollar | 50 dollar |
De veelgenoemde "tot 12 keer goedkoper" slaat op de uitvoerprijs tegenover het duurste Claude-model: 4 dollar tegen 50 dollar. Vergeleken met GPT-5.5 of Claude Opus 4.8 is het verschil kleiner, maar nog steeds een factor vijf tot zeven op uitvoer. Bij agent-workflows die veel tekst genereren, tikt juist die uitvoerprijs het hardst aan.
Waarom dit voor het MKB telt
Twee dingen maken dit verhaal interessant voorbij de cijfers.
Het eerste is kosten. Als je een chatbot, een code-assistent of een automatisering draait die dag in dag uit tokens verstookt, dan is een factor vijf tot tien op de rekening het verschil tussen "leuk experiment" en "structureel betaalbaar". Je hoeft daar geen serverpark voor neer te zetten: de API werkt en is bovendien compatibel met de OpenAI-standaard, dus bestaande code hoef je nauwelijks aan te passen.
Het tweede is eigenaarschap. Omdat de gewichten openstaan, kun je dit model in principe zelf hosten, op je eigen infrastructuur of bij een Europese aanbieder. Daarmee wordt het een serieus alternatief voor de vraag waar veel ondernemers mee worstelen: hoe voorkom ik dat mijn hele bedrijfsvoering aan een handvol Amerikaanse leveranciers hangt? Dezelfde redenering geldt voor open-weight Chinese modellen die je zelf kunt hosten en die qua codeer- en agent-prestaties dicht bij betaalde alternatieven zitten, en het past in de bredere beweging weg van vendor lock-in.
De nuchtere kanttekeningen
Voordat je je hele stack omgooit: een paar dingen om scherp te houden.
De benchmarks komen grotendeels van Moonshot zelf. Mooie scores op eigen tests zeggen minder dan hoe het model presteert op jouw echte werk. Test het op je eigen code voordat je conclusies trekt.
Zelf hosten klinkt aantrekkelijk, maar de gewichten zijn bijna 600 GB groot. Dat is geen model dat je even op een kantoorlaptop draait, je hebt serieuze GPU-capaciteit nodig. Voor de meeste MKB-bedrijven blijft de API daarom voorlopig de praktische route, en self-hosting iets voor wie er bewust in investeert. Het is precies de afweging tussen self-hosted en cloud die per geval anders uitvalt.
En de prijzen staan in dollars. Een goedkoper model verandert niets aan het feit dat je nog steeds nadenkt over waar je data heen gaat en onder welke voorwaarden. Een Chinees model dat je via een API in de cloud aanroept, is iets anders dan datzelfde model dat binnen je eigen muren draait.
Wat ik ervan zou doen
De winst zit niet in "het nieuwste model", maar in het juiste model voor de juiste taak. Voor routinematig codeerwerk en agent-stappen die veel tekst genereren, kan een goedkoper open model een groot deel van je rekening schrappen, terwijl je een duurder model bewaart voor het echt lastige werk. Met slim werken, loont hard werken, ook als het op je AI-rekening twaalf keer scheelt.
