GLM-5.2 klopt GPT-5.5 op coding, en kost een zesde
Het open-weight model GLM-5.2 van Z.ai verslaat GPT-5.5 op meerdere langlopende coding-benchmarks tegen ongeveer een zesde van de prijs. Wat dat betekent voor jouw AI-codeerkosten.
SWE-Bench Pro is de toonaangevende benchmark die de zelfstandige software-engineeringcapaciteiten van AI-modellen meet, en de nieuwste modellen van OpenAI en Anthropic behalen hierop baanbrekende scores.
SWE-Bench Pro is een gespecialiseerde benchmark die test of AI-modellen in staat zijn zelfstandig complexe programmeeropdrachten uit te voeren, zonder menselijke tussenkomst. De benchmark omvat realistische taken uit softwareontwikkeling en geldt als een belangrijke graadmeter voor de praktische inzetbaarheid van AI in het bouwen en onderhouden van software. Recente aankondigingen tonen een snelle vooruitgang in deze technologie. Claude Opus 4.8 van Anthropic behaalt een score van 69,2% op SWE-Bench Pro, een flinke sprong ten opzichte van eerdere versies en concurrerende modellen. GPT-5.4 van OpenAI gaat nog verder met innovaties als Native Computer Use, waarmee het model direct een computer kan bedienen, en Tool Search voor het vinden van geschikte hulpmiddelen. Daarnaast introduceert MiniMax met M3 een open-weight model dat bedrijven de mogelijkheid geeft de AI zelf te hosten, wat extra controle en privacy oplevert. Voor Nederlandse ondernemers en organisaties betekenen deze ontwikkelingen dat AI steeds meer kan worden ingezet als een volwaardige digitale collega. Taken als code review, legacy-modernisatie of procesautomatisering komen binnen bereik van kleinere teams, zonder diepgaande AI-expertise. De combinatie van hogere zelfstandigheid, betere benchmarkscores en flexibele implementatieopties maakt het moment rijp om de inzet van AI in de bedrijfsvoering serieus te verkennen.
Anthropic's nieuwste model verbetert de score met 4,9 procentpunt ten opzichte van de vorige versie (64,3%) en overtreft GPT-5.5 (58,6%). Dit toont de snelle vooruitgang in autonome programmeervaardigheden.
OpenAI's model kan zelfstandig een computer bedienen, waardoor het niet alleen code genereert, maar ook software kan installeren, interfaces besturen en workflows uitvoeren. Dit maakt het inzetbaar als een digitale collega voor procesautomatisering.
De nieuwe functie stelt het model in staat om complexe, meertrapstaken zelfstandig te plannen en uit te voeren. Ondernemers kunnen zo repetitieve handelingen uitbesteden aan AI, met minder risico op fouten.
Het open-weight model M3 van MiniMax stelt mkb-ondernemingen in staat het model op eigen servers te draaien, waardoor data niet naar externe partijen gaat. Dit verlaagt afhankelijkheid en vergroot datasoevereiniteit, al blijft waakzaamheid omtrent licentiewijzigingen geboden.
De GDPval-benchmark meet feitelijk juiste en consistente output; GPT-5.4's score van 83,0% laat een grote sprong in betrouwbaarheid zien ten opzichte van GPT-5.2 Pro (74,1%), wat essentieel is voor zakelijke toepassingen.
Met $5 per miljoen invoertokens en $25 per miljoen uitvoertokens is het model niet alleen krachtiger maar ook kostenefficiënter dan voorgangers, wat grootschaligere toepassing haalbaar maakt.
Van 9 tot en met 22 juni is Anthropic's Fable 5 beschikbaar op bestaande Pro-, Max-, Team- en Enterprise-abonnementen, wat een laagdrempelige kennismaking met de nieuwste AI-mogelijkheden biedt.