Wat is text diffusion precies?

Het model begint met willekeurige placeholder-tokens en verfijnt die in een paar rondes tot een complete passage, in plaats van woord voor woord te schrijven. Daardoor kan het 256 tokens tegelijk genereren.

Kan ik DiffusionGemma zelf draaien?

Ja. Het staat onder Apache 2.0 op Hugging Face en past gekwantiseerd in ongeveer 18GB videogeheugen, dus het draait op één high-end GPU zoals een RTX 5090.

Is het beter dan een gewoon AI-model?

Het is vooral sneller, niet beter. Google geeft aan dat de kwaliteit lager ligt dan standaard Gemma 4 en raadt het reguliere model aan voor de zwaarste taken.

Wat heb ik er als bedrijf aan?

Je draait het lokaal achter je eigen firewall, dus prompts blijven binnen je muren. Dat helpt bij privacy, AVG en het vermijden van vendor lock-in, vooral voor snelle interactieve taken.

DiffusionGemma: Googles snelle open tekstmodel

Google DeepMind heeft DiffusionGemma uitgebracht, een experimenteel open model dat op een fundamenteel andere manier tekst maakt. Waar vrijwel elk taalmodel tot nu toe woord voor woord van links naar rechts schrijft, gooit DiffusionGemma die volgorde overboord. Het begint met een soort ruis van willekeurige tokens en verfijnt die in een paar passes tot een complete passage, vergelijkbaar met hoe beeldgeneratoren een foto uit ruis tevoorschijn halen. Het resultaat is fors snellere tekstgeneratie, en, minstens zo belangrijk voor Nederlandse bedrijven, een model dat je gewoon zelf op je eigen hardware draait.

Wat is text diffusion, in gewone taal

Een gangbaar taalmodel voorspelt steeds het volgende woord op basis van wat ervoor staat. Dat is accuraat, maar inherent traag: elk woord moet wachten op het vorige. DiffusionGemma genereert in plaats daarvan 256 tokens tegelijk per stap en schaaft die over meerdere rondes bij, waarbij correcte tokens worden vastgezet. Volgens Google levert dat tot vier keer snellere inference op dan de klassieke token-voor-token aanpak.

Onder de motorkap zit het Gemma 4-fundament: een mixture-of-experts model van 26 miljard parameters waarvan er tijdens gebruik maar 3,8 miljard tegelijk actief zijn. Dat houdt het model licht genoeg voor één GPU. Gekwantiseerd past het in ongeveer 18GB videogeheugen, wat betekent dat een high-end consumentenkaart zoals een NVIDIA RTX 5090 het aankan.

Gebouwd voor lokaal draaien

Dit is geen cloud-only model. DiffusionGemma is nadrukkelijk geoptimaliseerd voor lokale, interactieve inzet op de NVIDIA-stack, van RTX en RTX PRO werkstations tot Hopper- en Blackwell-systemen. NVIDIA noemt tot 1.000 tokens per seconde op een enkele H100 en honderden per seconde op een desktopkaart.

Het model staat onder de Apache 2.0-licentie op Hugging Face, met kant-en-klare opties via NVIDIA NIM, vLLM en straks llama.cpp. Je downloadt het, draait het achter je eigen firewall en stuurt geen enkele prompt naar een externe API. Voor wie bezig is met privacy, AVG en het vermijden van vendor lock-in is dat precies het type bouwsteen dat telt. De afweging tussen self-hosted en cloud valt per project anders uit, en open-weight modellen zoals MiniMax M3, dat qua codeer- en agent-prestaties in de buurt komt van de grote betaalde modellen, maken die keuze steeds concreter.

De eerlijke kanttekening

Snelheid heeft een prijs. Google is open over de afweging: de kwaliteit van DiffusionGemma ligt lager dan die van het standaard Gemma 4-model. Voor zware redeneertaken raadt Google het reguliere model aan. DiffusionGemma blinkt uit in snelle, interactieve werkstromen: code aanvullen tijdens het typen, tekst ter plekke herschrijven, snel itereren, real-time toepassingen. Het is geen vervanging van je beste model, maar een gereedschap voor taken waar tempo zwaarder weegt dan het laatste procentje kwaliteit.

Wat betekent dit voor jouw bedrijf

De trend is duidelijker dan dit ene model. Capabele AI verschuift van uitsluitend dure cloud-API's naar modellen die je zelf bezit en lokaal draait. Dat geeft je drie dingen tegelijk: je data blijft binnen je eigen muren, je bent niet afhankelijk van de prijszetting van één leverancier, en je betaalt geen kosten per verzoek voor routinetaken.

Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware. Voor de meeste organisaties is de winst niet om alles te self-hosten, maar om bewust te kiezen: het zware werk eventueel in de cloud, de snelle en privacygevoelige taken op eigen hardware.

Veelgestelde vragen

Geschreven doorAlisina Nawabi

AI Product Engineer & Solutions Architect

Lokale AI draaien op eigen hardware

Ik beoordeel per gebruik of een lokaal open-weight model de juiste keuze is, richt de infrastructuur in en integreer het end-to-end in je bestaande processen, zonder maandelijkse API-rekening en zonder dat je data het pand verlaat.

Meer informatie

Dit artikel is geproduceerd samen met het Agent Team. Meer over de redactie.

AI Open-weight modellen Self-hosted Google AI-modellen Vendor lock-in MKB

DiffusionGemma: Googles open model dat tekst in één keer genereert

Wat is text diffusion, in gewone taal

Gebouwd voor lokaal draaien

De eerlijke kanttekening

Wat betekent dit voor jouw bedrijf

Veelgestelde vragen

Lokale AI draaien op eigen hardware

Verder met dit onderwerp

Welk open-weight model past bij je bedrijf

Verken verder

In dit artikel

Thema's

Concepten

Gerelateerde artikelen

Kimi K3 draait op 20.000 gehuurde Nvidia-chips van Alibaba

OpenAI, Anthropic en Google ontbreken in Nvidia's AI-beveiligingsalliantie

Open-weight-brief aan Washington verdubbelt naar 50 ondertekenaars

Meta metselt zich in, en de open fakkel verhuist

Microsoft en Cisco scharen zich achter Google's ARD: tool-zoekstandaard voor AI-agenten krijgt brede steun

Amerikaanse AI splitst in twee lagen, en de NSA trekt de grens