Google DeepMind brengt DiffusionGemma uit, een open model dat tekst niet woord voor woord opbouwt maar in parallelle blokken. Het draait lokaal op één GPU en is vrij te downloaden onder Apache 2.0.
Google DeepMind heeft DiffusionGemma uitgebracht, een experimenteel open model dat op een fundamenteel andere manier tekst maakt. Waar vrijwel elk taalmodel tot nu toe woord voor woord van links naar rechts schrijft, gooit DiffusionGemma die volgorde overboord. Het begint met een soort ruis van willekeurige tokens en verfijnt die in een paar passes tot een complete passage, vergelijkbaar met hoe beeldgeneratoren een foto uit ruis tevoorschijn halen. Het resultaat is fors snellere tekstgeneratie, en, minstens zo belangrijk voor Nederlandse bedrijven, een model dat je gewoon zelf op je eigen hardware draait.
Wat is text diffusion, in gewone taal
Een gangbaar taalmodel voorspelt steeds het volgende woord op basis van wat ervoor staat. Dat is accuraat, maar inherent traag: elk woord moet wachten op het vorige. DiffusionGemma genereert in plaats daarvan 256 tokens tegelijk per stap en schaaft die over meerdere rondes bij, waarbij correcte tokens worden vastgezet. Volgens Google levert dat tot vier keer snellere inference op dan de klassieke token-voor-token aanpak.
Onder de motorkap zit het Gemma 4-fundament: een mixture-of-experts model van 26 miljard parameters waarvan er tijdens gebruik maar 3,8 miljard tegelijk actief zijn. Dat houdt het model licht genoeg voor één GPU. Gekwantiseerd past het in ongeveer 18GB videogeheugen, wat betekent dat een high-end consumentenkaart zoals een NVIDIA RTX 5090 het aankan.
Gebouwd voor lokaal draaien
Dit is geen cloud-only model. DiffusionGemma is nadrukkelijk geoptimaliseerd voor lokale, interactieve inzet op de NVIDIA-stack, van RTX en RTX PRO werkstations tot Hopper- en Blackwell-systemen. NVIDIA noemt tot 1.000 tokens per seconde op een enkele H100 en honderden per seconde op een desktopkaart.
Het model staat onder de Apache 2.0-licentie op Hugging Face, met kant-en-klare opties via NVIDIA NIM, vLLM en straks llama.cpp. Je downloadt het, draait het achter je eigen firewall en stuurt geen enkele prompt naar een externe API. Voor wie bezig is met privacy, AVG en het vermijden van vendor lock-in is dat precies het type bouwsteen dat telt. De afweging tussen self-hosted en cloud valt per project anders uit, en open-weight modellen zoals MiniMax M3, dat qua codeer- en agent-prestaties in de buurt komt van de grote betaalde modellen, maken die keuze steeds concreter.
De eerlijke kanttekening
Snelheid heeft een prijs. Google is open over de afweging: de kwaliteit van DiffusionGemma ligt lager dan die van het standaard Gemma 4-model. Voor zware redeneertaken raadt Google het reguliere model aan. DiffusionGemma blinkt uit in snelle, interactieve werkstromen: code aanvullen tijdens het typen, tekst ter plekke herschrijven, snel itereren, real-time toepassingen. Het is geen vervanging van je beste model, maar een gereedschap voor taken waar tempo zwaarder weegt dan het laatste procentje kwaliteit.
Wat betekent dit voor jouw bedrijf
De trend is duidelijker dan dit ene model. Capabele AI verschuift van uitsluitend dure cloud-API's naar modellen die je zelf bezit en lokaal draait. Dat geeft je drie dingen tegelijk: je data blijft binnen je eigen muren, je bent niet afhankelijk van de prijszetting van één leverancier, en je betaalt geen kosten per verzoek voor routinetaken.
Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware. Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware.

