Het nieuwe Hy3 AI-model van Tencent is de meest efficiënte Chinese LLM waar niemand het over heeft

Default Door Remote - 23 Apr 2026

In het kort

Hy3 preview is een Mixture-of-Experts-model met 295 miljard parameters en slechts 21 miljard actieve parameters, waardoor het goedkoper te gebruiken is dan de meeste rivalen met vergelijkbare capaciteiten.

Op SWE-bench Verified – een coderingsbenchmark die echte GitHub-bugfixes test – steeg het van 53% (Hy2) naar 74,4%, een verbetering van 40% ten opzichte van de vorige generatie.

Het model is al live in het app-ecosysteem van Tencent, waaronder Yuanbao, QQ en Tencent Docs, met API-toegang op Tencent Cloud vanaf ongeveer $ 0,18 per miljoen inputtokens.

Tencent heeft donderdag stilletjes zijn meest capabele AI-model tot nu toe laten vallen, en de benchmarkcijfers zijn moeilijk te negeren. Hy3 preview, het eerste model van het bedrijf na een volledige herbouw van de infrastructuur, is vandaag open-source geworden voor GitHub, Hugging Face en ModelScope.

Het is ook beschikbaar op de officiële website van Tencent Cloud, onder een betaald abonnement.

My3 bevat in totaal 295 miljard parameters (een maatstaf voor de potentiële kennisbreedte van een model), maar er zijn er op elk moment slechts 21 miljard actief. Dat is het mooie van een Mixture-of-Experts-architectuur: het model stuurt elke vraag naar een gespecialiseerde subset van zijn 'expert'-subnetwerken in plaats van alles in één keer uit te voeren. Minder rekenkracht, lagere kosten, ongeveer dezelfde uitvoerkwaliteit. Het ondersteunt ook maximaal 256.000 tokens aan context, wat genoeg is om een volledige roman in één keer door te slikken.

Het model is gebouwd om drie dingen in evenwicht te brengen, zegt Tencent dat het niet langer voor elkaar opoffert: de breedte van de capaciteiten, eerlijke evaluatie en kostenefficiëntie. Hun vorige vlaggenschip, Hy2, had meer dan 400 miljard parameters. Tencent liep daar expliciet op terug, met het argument dat 295 miljard de optimale ‘sweet spot’ is waar de redenering volledig volwassen wordt, maar de kosten van het toevoegen van meer parameters niet langer vruchten afwerpen.

Dit betekent ook niet dat het model slechter is. Modellen met betere training en lagere parameters presteren vrij vaak beter dan grotere generalistische modellen.

Op het gebied van coderen is de verbetering dramatisch. SWE-bench Verified is een benchmark die test of een model daadwerkelijk echte bugs uit GitHub-repository's kan oplossen – geen speelgoedproblemen, maar productiecode. Hy2 scoorde 53,0%. Hy3-preview scoort 74,4%. Dat is een sprong van 40% in één generatie, waarmee deze binnen het bereik van Claude Opus 4.6 (80,8%) en boven GLM-5 (77,8%) en Kimi-K2.5 (76,8%) terechtkomt. Terminal-Bench 2.0, dat de autonome taakuitvoering in een echte opdrachtregelomgeving meet, ging van 23,2% naar 54,4% – ook een enorme sprong.

Het model kan echter een zeer interessante keuze zijn voor mensen die met agenten bouwen. Agenten hebben een zeer complexe reeks instructies waarbij herinneringen, vaardigheden en gereedschapsoproepen betrokken zijn. Ze missen meestal iets, wat een workflow kan verpesten of slechte resultaten kan opleveren. Dat is de reden waarom agentische capaciteiten steeds belangrijker worden voor AI-ontwikkelaars, omdat dit gebied het meest gehypte ding in de branche wordt. Dat is ook de reden waarom het model onmiddellijk beschikbaar werd gesteld op Openclaw.

We zijn nu live op @openclaw https://t.co/yfytwvZSe6

— Tencent Hy (@TencentHunyuan) 23 april 2026

Zoek- en browse-agents (waar modellen zonder menselijke begeleiding informatie van het open web moeten ophalen, filteren en synthetiseren) zijn ook sterk verbeterd. Op BrowseComp, een benchmark die complexe webonderzoekstaken bijhoudt, bereikte de Hy3-preview 67,1% (tegenover de 28,7% van Hy2). Op WideSearch behaalde het een score van 70,2%, beter dan GLM-5 en Kimi-K2.5, maar achter op de 77,2% van Claude Opus 4.6.

In redenering stond het model bovenaan elke Chinese concurrent op het wiskunde-PhD-kwalificatie-examen van de Tsinghua Universiteit (lente 2026), met een score van 88,4 op het gemiddelde van drie runs (gemiddeld 3). Dat is een examen uit de echte wereld, geen samengestelde dataset – het soort evaluatie dat Tencent zegt prioriteit te geven aan het vermijden van benchmark-gaming. Het model scoorde ook 87,8 op CHSBO 2025 (China's nationale biologieolympiade voor middelbare scholen), de hoogste van de Chinese modellen in die categorie.

Hy3 preview begon eind januari 2026 met trainen en werd donderdag gelanceerd – minder dan drie maanden vanaf de koude start tot de open-source release. Ongebruikelijk snel voor een model uit de frontierklasse. Tencent schrijft dit toe aan een infrastructuurrevisie in februari onder leiding van Yao Shunyu, de belangrijkste AI-wetenschapper, die een volledige herbouw van de leerstapel voor voortraining en versterking heeft doorgevoerd.

Dit is een heel andere aanpak dan wat Chinese AI-laboratoria een jaar geleden deden, toen DeepSeek's R1 de industrie schokte met zijn kostenefficiëntie.

Hy3 loopt nog steeds achter op de vlaggenschepen van OpenAI en Google DeepMind, maar door de verhouding tussen grootte en prestatie is de preview van Hy3 moeilijk te negeren: de agentbenchmarkcomposiet toont hem in de "optimale zone" met ~295 miljard parameters, vóór DeepSeek-V3.2 (600 miljard+) en bijpassende Kimi-K2.5 (meer dan 1 biljoen parameters) tegen een fractie van de computerkosten.

Hunyuan-modellen zijn al geïmplementeerd in Yuanbao, CodeBuddy, WorkBuddy, QQ en Tencent Docs. Op CodeBuddy en WorkBuddy daalde de latentie van de eerste token met 54%, de end-to-end generatietijd met 47% en voerde het model met succes agentworkflows uit die maar liefst 495 stappen lang waren. Tencent Cloud biedt API-toegang voor ongeveer $0,18 per miljoen inputtokens en $0,59 per miljoen outputtokens, met persoonlijke Token Plan-pakketten vanaf ongeveer $4,10 per maand.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Fold lanceert 'Bitcoin Bonus'-programma voor werkgevers na het debuut van Steak 'n Shake OpenAI zegt dat zijn nieuwe ChatGPT voor artsen beter presteert dan mensen in klinische taken →