Een NVIDIA GeForce RTX grafische kaart in close-up

DiffusionGemma: Googles open model dat tekst in één keer genereert

NieuwsAlisina NawabiAlisina Nawabi13 juni · 18:065 min leestijd

Google DeepMind brengt DiffusionGemma uit, een open model dat tekst niet woord voor woord opbouwt maar in parallelle blokken. Het draait lokaal op één GPU en is vrij te downloaden onder Apache 2.0.

Google DeepMind heeft DiffusionGemma uitgebracht, een experimenteel open model dat op een fundamenteel andere manier tekst maakt. Waar vrijwel elk taalmodel tot nu toe woord voor woord van links naar rechts schrijft, gooit DiffusionGemma die volgorde overboord. Het begint met een soort ruis van willekeurige tokens en verfijnt die in een paar passes tot een complete passage, vergelijkbaar met hoe beeldgeneratoren een foto uit ruis tevoorschijn halen. Het resultaat is fors snellere tekstgeneratie, en, minstens zo belangrijk voor Nederlandse bedrijven, een model dat je gewoon zelf op je eigen hardware draait.

Wat is text diffusion, in gewone taal

Een gangbaar taalmodel voorspelt steeds het volgende woord op basis van wat ervoor staat. Dat is accuraat, maar inherent traag: elk woord moet wachten op het vorige. DiffusionGemma genereert in plaats daarvan 256 tokens tegelijk per stap en schaaft die over meerdere rondes bij, waarbij correcte tokens worden vastgezet. Volgens Google levert dat tot vier keer snellere inference op dan de klassieke token-voor-token aanpak.

Onder de motorkap zit het Gemma 4-fundament: een mixture-of-experts model van 26 miljard parameters waarvan er tijdens gebruik maar 3,8 miljard tegelijk actief zijn. Dat houdt het model licht genoeg voor één GPU. Gekwantiseerd past het in ongeveer 18GB videogeheugen, wat betekent dat een high-end consumentenkaart zoals een NVIDIA RTX 5090 het aankan.

Gebouwd voor lokaal draaien

Dit is geen cloud-only model. DiffusionGemma is nadrukkelijk geoptimaliseerd voor lokale, interactieve inzet op de NVIDIA-stack, van RTX en RTX PRO werkstations tot Hopper- en Blackwell-systemen. NVIDIA noemt tot 1.000 tokens per seconde op een enkele H100 en honderden per seconde op een desktopkaart.

Het model staat onder de Apache 2.0-licentie op Hugging Face, met kant-en-klare opties via NVIDIA NIM, vLLM en straks llama.cpp. Je downloadt het, draait het achter je eigen firewall en stuurt geen enkele prompt naar een externe API. Voor wie bezig is met privacy, AVG en het vermijden van vendor lock-in is dat precies het type bouwsteen dat telt. De afweging tussen self-hosted en cloud valt per project anders uit, en open-weight modellen zoals MiniMax M3, dat qua codeer- en agent-prestaties in de buurt komt van de grote betaalde modellen, maken die keuze steeds concreter.

De eerlijke kanttekening

Snelheid heeft een prijs. Google is open over de afweging: de kwaliteit van DiffusionGemma ligt lager dan die van het standaard Gemma 4-model. Voor zware redeneertaken raadt Google het reguliere model aan. DiffusionGemma blinkt uit in snelle, interactieve werkstromen: code aanvullen tijdens het typen, tekst ter plekke herschrijven, snel itereren, real-time toepassingen. Het is geen vervanging van je beste model, maar een gereedschap voor taken waar tempo zwaarder weegt dan het laatste procentje kwaliteit.

Wat betekent dit voor jouw bedrijf

De trend is duidelijker dan dit ene model. Capabele AI verschuift van uitsluitend dure cloud-API's naar modellen die je zelf bezit en lokaal draait. Dat geeft je drie dingen tegelijk: je data blijft binnen je eigen muren, je bent niet afhankelijk van de prijszetting van één leverancier, en je betaalt geen kosten per verzoek voor routinetaken.

Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware. Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware.

Veelgestelde vragen

Alisina Nawabi
Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

Bij FLOH ontwerp en bouw ik complete software, integraties en AI op maat, van eerste idee tot werkend product, en jij blijft eigenaar. Hier schrijf ik nuchter over bouwen met AI en software voor ondernemers en organisaties.

Meer over mij

Gerelateerde artikelen

Anthropic & SpaceX: Een strategische compute-alliantie die de AI- en ruimtevaartindustrie hervormtNieuws

Anthropic & SpaceX: Een strategische compute-alliantie die de AI- en ruimtevaartindustrie hervormt

Op 6 mei 2026 kondigden Anthropic en SpaceXAI (de fusie van SpaceX en xAI) een opmerkelijke strategische samenwerking aan die de krachten bundelt tussen twee van de machtigste spelers in de technologie-industrie [1][2]. Waar Elon Musk, eigenaar van SpaceXAI, Anthropic eerder nog bestempelde als...

Lees artikel
GLM-5.2 klopt GPT-5.5 op coding, en kost een zesdeNieuws

GLM-5.2 klopt GPT-5.5 op coding, en kost een zesde

Het open-weight model GLM-5.2 van Z.ai verslaat GPT-5.5 op meerdere langlopende coding-benchmarks tegen ongeveer een zesde van de prijs. Wat dat betekent voor jouw AI-codeerkosten.

Lees artikel
G7 bespreekt 'trusted partners' voor toegang tot Amerikaanse AI-modellenNieuws

G7 bespreekt 'trusted partners' voor toegang tot Amerikaanse AI-modellen

Op de G7-top in Evian praten leiders over een schema dat 'trusted partners' weer toegang geeft tot geavanceerde Amerikaanse AI-modellen. Een mogelijke uitweg uit de Anthropic-exportban, maar nog niets is zeker.

Lees artikel
SpaceX koopt Cursor voor 60 miljard dollar: wat de overname betekent voor je AI-ontwikkelstackNieuws

SpaceX koopt Cursor voor 60 miljard dollar: wat de overname betekent voor je AI-ontwikkelstack

SpaceX neemt Anysphere over, het bedrijf achter codeertool Cursor, voor 60 miljard dollar in aandelen. Amper vier dagen na de recordbeursgang. Wat betekent een nieuwe eigenaar voor je dagelijkse codeertool?

Lees artikel
Alibaba lanceert Qwen-Robot: van chatbot naar fysieke robot, en wat dat voor automatisering betekentNieuws

Alibaba lanceert Qwen-Robot: van chatbot naar fysieke robot, en wat dat voor automatisering betekent

Alibaba presenteerde zijn eerste AI-modellen voor robots. De Qwen-Robot-suite geeft machines handen, voeten en een brein. Een teken dat AI van het scherm naar de werkvloer verschuift.

Lees artikel
Facebook wordt een AI-zoekmachine: wat AI Mode betekent voor jouw vindbaarheidNieuws

Facebook wordt een AI-zoekmachine: wat AI Mode betekent voor jouw vindbaarheid

Meta lanceerde maandag een AI-zoekfunctie op Facebook die antwoorden samenstelt uit publieke posts in plaats van een lijst met links. Dat verandert hoe klanten je vinden en hoe je adverteert.

Lees artikel