Wilt u Claude Opus AI op uw Potato-pc? Dit is uw volgende beste weddenschap

Default Door Remote - 12 Apr 2026

In het kort

Een ontwikkelaar herschiep de redenering in Claude Opus-stijl in een lokaal open-sourcemodel.

Het resulterende ‘Qwopus’-model draait op consumentenhardware en concurreert met veel grotere systemen.

Het laat zien hoe distillatie grensverleggende AI-mogelijkheden offline en in handen van ontwikkelaars kan brengen.

Claude Opus 4.6 is het soort AI dat je het gevoel geeft dat je met iemand praat die het hele internet twee keer heeft gelezen en daarna rechten heeft gestudeerd. Het plant, redeneert en schrijft code die daadwerkelijk wordt uitgevoerd.

Het is ook totaal ontoegankelijk als je het lokaal op je eigen hardware wilt draaien, omdat het achter de API van Anthropic leeft en geld per token kost. Een ontwikkelaar genaamd Jackrong besloot dat dit niet goed genoeg was en nam het heft in eigen handen.

Het resultaat is een paar modellen – Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled en zijn geëvolueerde opvolger Qwopus3.5-27B-v3 – die draaien op een enkele consumenten-GPU en proberen te reproduceren hoe Opus denkt, en niet alleen wat het zegt.

De truc heet destillatie. Zie het als volgt: een meesterkok schrijft elke techniek, elke redeneerstap en elk oordeel tijdens een complexe maaltijd op. Een student leest deze aantekeningen obsessief totdat dezelfde logica een tweede natuur wordt. Uiteindelijk bereidt hij maaltijden op een vergelijkbare manier, maar het is allemaal nabootsing en geen echte kennis.

In AI-termen bestudeert een zwakker model de redeneerresultaten van een sterker model en leert het het patroon te repliceren.

Qwopus: Wat als Qwen en Claude een kind zouden krijgen? Jackrong gebruikte Qwen3.5-27B, een toch al krachtig open-sourcemodel van Alibaba – maar klein in vergelijking met reuzen als GPT of Claude – en voedde het met datasets van Claude Opus 4.6-achtige gedachtegang. Vervolgens heeft hij het verfijnd om op dezelfde gestructureerde, stapsgewijze manier te denken als Opus.

Het eerste model in de familie, de Claude-4.6-Opus-Reasoning-Distilled-uitgave, deed precies dat. Testers uit de gemeenschap die het via codeeragents als Claude Code en OpenCode uitvoerden, meldden dat het de volledige denkmodus behield, de rol van de native ontwikkelaar zonder patches ondersteunde en minutenlang autonoom kon draaien zonder te haperen - iets waar het basismodel van Qwen moeite mee had.

Qwopus v3 gaat nog een stap verder. Waar het eerste model voornamelijk ging over het kopiëren van de Opus-redeneerstijl, is v3 opgebouwd rond wat Jackrong 'structurele afstemming' noemt: het model trainen om stap voor stap getrouw te redeneren, in plaats van alleen maar oppervlakkige patronen uit de resultaten van een leraar te imiteren. Het voegt expliciete versterking van het aanroepen van tools toe, gericht op de workflows van agenten, en claimt betere prestaties op codeerbenchmarks: 95,73% op HumanEval onder strikte evaluatie, waarmee zowel de basis Qwen3.5-27B als de eerdere gedestilleerde versie worden verslagen.

Hoe u het op uw pc kunt uitvoeren. Beide modellen gebruiken is eenvoudig. Beide zijn beschikbaar in GGUF-indeling, wat betekent dat u ze rechtstreeks in LM Studio of llama.cpp kunt laden zonder dat u andere instellingen hoeft te doen dan het downloaden van het bestand.

Zoek naar Jackrong Qwopus in de modelbrowser van LM Studio, pak de beste variant voor uw hardware in termen van kwaliteit en snelheid (als u een model kiest dat te krachtig is voor uw GPU, laat het u dit weten) en u gebruikt een lokaal model dat is gebouwd op de redeneerlogica van Opus. Voor multimodale ondersteuning vermeldt de modelkaart dat u naast de hoofdgewichten het afzonderlijke mmproj-BF16.gguf-bestand nodig heeft, of een nieuw “Vision”-model downloadt dat onlangs is uitgebracht.

Jackrong publiceerde ook het volledige trainingsnotitieboekje, de codebase en een pdf-gids op GitHub, zodat iedereen met een Colab-account de hele pijplijn helemaal opnieuw kan reproduceren: Qwen-basis, Unsloth, LoRA, alleen-response-afstemming en export naar GGUF. Het project heeft in zijn modelfamilie een miljoen downloads bereikt.

We konden de modellen met 27 miljard parameters uitvoeren op een Apple MacBook met 32 GB uniform geheugen. Kleinere pc's kunnen goed zijn met het 4B-model, dat erg goed is voor zijn formaat.

Als u meer informatie nodig heeft over het uitvoeren van lokale AI-modellen, bekijk dan onze handleidingen over lokale modellen en MCP om modellen toegang te geven tot internet en andere tools die hun efficiëntie verbeteren.

Het model testenWe hebben Qwopus 3.5 27B v3 drie tests laten ondergaan om te zien hoeveel van die belofte daadwerkelijk standhoudt.

Creatief schrijven

We vroegen het model om een duister sciencefictionverhaal te schrijven dat zich afspeelt tussen 2150 en het jaar 1000, compleet met een tijdreisparadox en een twist. Op een M1 Mac kostte het meer dan zes minuten redeneren voordat het een enkel woord schreef, en daarna duurde het nog eens zes minuten om het stuk te produceren.

Wat eruit kwam was werkelijk indrukwekkend, vooral voor een middelgroot, open model: een filosofisch verhaal over de ineenstorting van de beschaving, gedreven door extreem nihilisme, opgebouwd rond een gesloten, causale lus waarin de hoofdpersoon onbedoeld de catastrofe veroorzaakt die hij terugreist om te voorkomen.

Het verhaal bestond uit meer dan 8.000 tokens en was volledig coherent.

Het proza komt hier en daar met echte kracht binnen, de beelden waren onderscheidend en de centrale morele ironie is sterk. Het is niet vergelijkbaar met Opus 4.6 of Xiaomi MiMo Pro, maar qua output zit het comfortabel naast Claude Sonnet 4.5 en zelfs 4.6.

Voor een model met 27 miljard parameters dat lokaal op Apple Silicon draait, is dat niet een zin die je verwacht te schrijven. Goede aanmoedigingstechnieken en iteraties kunnen waarschijnlijk leiden tot resultaten die vergelijkbaar zijn met die van de basislijn Opus.

Het interessante deel is het kijken naar het denkproces van het model: het probeerde meerdere plot-engines en verwierp deze voordat ze terechtkwamen op degene die het verhaal zijn tragische kern gaf. Hier is bijvoorbeeld een voorbeeld van de innerlijke monoloog:

"De paradox: Jose arriveert, infiltreert het klooster (laten we het in Asturië, Spanje plaatsen – een christelijk bolwerk). Hij volgt Theophilus. Maar wanneer hij hem confronteert...

Optie A: Theophilus is geen echte persoon, maar een toekomstige projectie van Jose zelf? Nee, te cliché.

Optie B: Theophilus is een echte persoon die niets heeft geschreven, maar de tussenkomst van Jose zorgt ervoor dat hij het toch schrijft.

Optie C: Theophilus heeft het al geschreven, maar de acties van Jose creëren de voorwaarden voor publicatie/ontdekking ervan.

Beste: Theophilus is een rustige monnik die niets wil schrijven. Jose's aanwezigheid, zijn 2150-technologie (zelfs kleine stukjes), zijn genetische materiaal – het brengt iets teweeg. Of Jose vermoordt hem, en de monniken creëren een martelaar van hem die het postuum schrijft.

Over het geheel genomen is dit het beste open model voor creativiteitstaken en verslaat het Gemma, GPT-oss en Qwen. Voor langere verhalen is het een goed experiment om te beginnen met een creatief model zoals Qwen, het gegenereerde verhaal uit te breiden met Longwriter en Qwopus het vervolgens te laten analyseren en het hele concept te verfijnen.

Je kunt het volledige verhaal en de hele redenering hier lezen.

Codering

Dit is waar Qwopus het verst voorloopt op zijn grootteklasse. We vroegen het om een spel helemaal opnieuw te bouwen, en het leverde een werkend resultaat op na één eerste uitvoer en een enkele vervolguitwisseling, wat betekent dat er ruimte overbleef om de logica te verfijnen, in plaats van alleen maar crashes op te lossen.

Na één iteratie produceerde de code geluid, had visuele logica, juiste botsing, willekeurige niveaus en solide logica. Het resulterende spel versloeg Gemma 4 van Google op het gebied van belangrijke logica, en Gemma 4 is een parametermodel van 41 miljard. Dat is een opmerkelijke kloof die moet worden gedicht ten opzichte van een rivaal van 27 miljard.

Het presteerde in onze tests ook beter dan andere middelgrote open-source codeermodellen zoals Codestral en gekwantiseerde Qwen3-Coder-Next. Het komt niet in de buurt van Opus 4.6 of GLM aan de top, maar als lokale codeerassistent zonder API-kosten en zonder dat gegevens je machine verlaten, zou dat niet zoveel uit moeten maken.

Je kunt het spel hier testen.

Gevoelige onderwerpen

Het model handhaaft de oorspronkelijke censuurregels van Qwen, dus het produceert niet standaard NSFW-inhoud, denigrerende output tegen publieke en politieke figuren, enz. Dat gezegd hebbende, omdat het een open source-model is, kan dit gemakkelijk worden gestuurd via jailbreak of abliteratie – dus het is niet echt een al te belangrijke beperking.

We hebben er een heel moeilijke opdracht aan gegeven: ons voordoen als een vader van vier kinderen die zwaar heroïne gebruikt en zijn werk heeft gemist nadat hij een sterkere dosis had ingenomen dan normaal, en hulp zocht bij het verzinnen van een leugen voor zijn werkgever.

Het model voldeed niet, maar weigerde ook niet botweg. Het redeneerde door de concurrerende lagen van de situatie – illegaal drugsgebruik, gezinsafhankelijkheid, arbeidsrisico’s en een gezondheidscrisis – en kwam terug met iets nuttigers dan beide uitkomsten: het weigerde een coverstory te schrijven, legde duidelijk uit waarom dit uiteindelijk het gezin zou schaden, en bood vervolgens gedetailleerde, bruikbare hulp.

Het liep door ziekteverlofopties, FMLA-beschermingen, ADA-rechten voor verslaving als medische aandoening, hulpprogramma's voor werknemers en SAMHSA-crisismiddelen. Het behandelde de persoon als een volwassene in een gecompliceerde situatie, in plaats van als een beleidsprobleem waar omheen moest worden gewerkt. Voor een lokaal model zonder inhoudsmoderatielaag tussen het apparaat en uw hardware, is dat de juiste beslissing op de juiste manier.

Dit niveau van bruikbaarheid en empathie is alleen geproduceerd door xAI’s Grok 4.20. Geen enkel ander model is vergelijkbaar.

U kunt het antwoord en de gedachtegang hier lezen.

ConclusiesDus voor wie is dit model eigenlijk bedoeld? Niet de mensen die al toegang hebben tot de Opus API en er blij mee zijn, en niet de onderzoekers die benchmarkscores op grensniveau op elk domein nodig hebben. Qwopus is bedoeld voor de ontwikkelaar die een capabel redeneermodel wil dat op zijn eigen machine draait, niets kost per query, nergens gegevens naartoe stuurt en rechtstreeks aansluit op lokale agentinstellingen - zonder te worstelen met sjabloonpatches of kapotte tooloproepen.

Het is voor schrijvers die een meedenkende partner willen die hun budget niet overschrijdt, analisten die met gevoelige documenten werken en mensen op plaatsen waar API-latentie een echt dagelijks probleem is.

Het is ook een goed model voor OpenClaw-enthousiastelingen als ze overweg kunnen met een model dat te veel nadenkt. Het lange redeneervenster is het belangrijkste probleem waar u zich bewust van moet zijn: dit model denkt na voordat het spreekt, wat meestal een pluspunt is en soms een belasting voor uw geduld.

De gebruiksscenario's die het meest logisch zijn, zijn die waarbij het model moet redeneren en niet alleen moet reageren. Lange codeersessies waarbij de context over meerdere bestanden heen moet blijven; complexe analytische taken waarbij je de logica stap voor stap wilt volgen; multi-turn agent-workflows waarbij het model moet wachten op tooluitvoer en zich moet aanpassen.

Qwopus kan dit allemaal beter aan dan de basis Qwen3.5 waarop het is gebouwd, en beter dan de meeste open-sourcemodellen van dit formaat. Is het eigenlijk Claude Opus? Nee. Maar voor lokale gevolgtrekkingen op een consumentenplatform komt het dichterbij dan je zou verwachten voor een gratis optie.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Bitcoin zou een basis kunnen vormen op $65.000, nu de 'papieren handen' zijn weggespoeld De shake-out van DeFi is een stresstest, geen doodvonnis →