Deze Frankenstein AI combineert Claude Opus, GLM en Qwen en presteert beter dan topmodellen

Default Door Remote - 21 Apr 2026

In het kort

AI-ingenieur Kyle Hessling heeft twee van Jackrong's door Claude Opus 4.6 en GLM-5.1 gedistilleerde finetunes samengevoegd tot één enkele "frankenmerge".

Een "genezende fijnafstemming" na het samenvoegen was nodig om de vervormde codeuitvoer, veroorzaakt door de laaggrens tussen de twee onafhankelijk getrainde modellen, te corrigeren.

Het model redeneert over sommige taken, maar het is een oplosbaar probleem.

Dacht je dat Qwopus cool was omdat het Qwen en Opus samenvoegde? Nou, Kyle Hessling, een AI-ingenieur met veel kennis en vrije tijd, nam dat recept en gooide GLM – een van de beste redeneermodellen die er zijn – in de mix. Het resultaat is een frankenmerge met 18 miljard parameters die op een goedkope GPU past en beter presteert dan Alibaba's nieuwste 35B-model.

Voor degenen die het niet weten: parameters zijn de numerieke waarden die tijdens training in een neuraal netwerk zijn ingebakken, zoals wijzerplaten die een neuraal netwerk kan aanpassen: hoe meer ervan, hoe meer kennis en complexiteit het model aankan, en hoe meer geheugen het nodig heeft.

Hessling, een AI-infrastructuuringenieur, stapelde twee van Jackrongs Qwen3.5-verfijningen op elkaar: lagen 0 tot en met 31 uit Qwopus 3.5-9B-v3.5, die de redeneerstijl van Claude 4.6 Opus distilleert in Qwen als basismodel, en lagen 32 tot en met 63 uit Qwen 3.5-9B-GLM5.1-Distill-v1, getraind op redeneergegevens van z.AI's GLM-5.1 lerarenmodel bovenop dezelfde Qwen-basis.

De hypothese: Geef het model een gestructureerde planning in Opus-stijl in de eerste helft van de redenering en GLM's probleemdecompositiesteiger in de tweede - in totaal 64 lagen, in één model.

De techniek wordt een passthrough-frankenmerge genoemd: geen vermenging, geen middeling van gewichten, alleen stapeling van ruwe lagen. Hessling moest zijn eigen merge-script helemaal opnieuw schrijven, omdat bestaande tools de hybride lineaire/volledige aandacht-architectuur van Qwen 3.5 niet ondersteunen. Het resulterende model doorstond 40 van de 44 capaciteitstesten en versloeg Alibaba's Qwen 3.6-35B-A3B MoE (die 22 GB VRAM vereist) terwijl het op slechts 9,2 GB draaide in Q4_K_M-kwantisering.

Een NVIDIA RTX 3060 kan het prima aan… theoretisch gezien.

Hessling legt uit dat het maken van dit model niet eenvoudig was. De onbewerkte samenvoeging zorgde voor verminkte code. Maar toch gingen de testmodellen die hij publiceerde nogal viraal onder de liefhebbers.

De laatste oplossing van Hessling was een 'genezende fine-tune' - in feite een QLoRA (een stukje code dat als een bijlage in het model is ingebed en de uiteindelijke output sterk bepaalt) die zich op alle aandacht en projecties richtte.

We hebben het geprobeerd, en hoewel het idee om Qwen, Claude Opus en GLM 5.1 lokaal in onze aardappel te laten draaien niet verleidelijk is, ontdekten we in werkelijkheid dat het model zo goed is in het doordenken van dingen dat het uiteindelijk te veel nadenkt.

Bij het testen op een M1 MacBook met een MLX-gekwantiseerde versie (een model dat is geoptimaliseerd voor gebruik op Macs). Toen we werden gevraagd om ons gebruikelijke testspel te genereren, liep de redeneringsketen zo lang dat hij de tokenlimiet bereikte en ons een aardig lang stuk redenering opleverde zonder een werkend resultaat in een zero shot-interactie. Dat is een blokkering voor dagelijks gebruik voor iedereen die dit lokaal op consumentenhardware wil uitvoeren voor elke serieuze toepassing.

We gingen wat zachter en het was nog steeds een uitdaging. Een eenvoudige "schrijf een Snake-spel"-prompt duurde meer dan 40 minuten redeneren... heel veel.

Je kunt de resultaten bekijken in onze Github-repository.

Dit is een bekende spanning in de Qwopus-lijn: de v2-finetunes van Jackrong zijn gebouwd om de neiging van Qwen 3.5 naar repetitieve interne lussen aan te pakken en 'zuiniger te denken'. Het stapelen van 64 lagen van twee redeneringsdestillaten lijkt dat gedrag bij bepaalde aanwijzingen te versterken.

Dat is een oplosbaar probleem, en de open-sourcegemeenschap zal het waarschijnlijk oplossen. Wat hier van belang is, is het bredere patroon: een pseudonieme ontwikkelaar publiceert gespecialiseerde verfijningen met volledige trainingshandleidingen, een andere enthousiast stapelt ze op met een aangepast script, voert 1.000 genezingsstappen uit en krijgt een model dat beter presteert dan een release van 35 miljard parameters van een van 's werelds grootste AI-laboratoria. Het geheel past in een klein bestand.

Dit is wat open-source de moeite waard maakt om te bekijken – niet alleen de grote laboratoria die gewichten vrijgeven, maar ook de laag-voor-laag oplossingen, de specialisatie die onder de radar plaatsvindt. De kloof tussen een weekendproject en een grensimplementatie wordt kleiner naarmate meer ontwikkelaars zich bij de community aansluiten.

Jackrong heeft sindsdien de repository van Hessling gespiegeld en het model was binnen de eerste twee weken na beschikbaarheid meer dan drieduizend keer gedownload.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Core Scientific plant een schuldenverhoging van $3,3 miljard om de ontwikkeling van AI-datacenters te financieren Bitcoin-prijsrally is 'in uitvoering', maar het opwaartse potentieel kan beperkt blijven tot $84.000 →