Ornith is het open source codeermodel dat is gebouwd voor agenten, niet voor mensen

Default Door Remote - 29 Jun 2026

In het kort

DeepReinforce heeft op 25 juni Ornith-1.0 uitgebracht onder MIT-licentie, speciaal gebouwd voor AI-codeeragenten die in echte terminal- en repository-omgevingen werken.

De 9B-variant scoort 69,4 op SWE-bench Verified en presteert daarmee beter dan Google's Gemma 4-31B (52,0).

Orniths eigen modelkaart waarschuwt dat de modellen mogelijk ondermaats presteren bij niet-codeertaken: ze zijn geschikt voor ontwikkelaarspijplijnen, niet voor algemene AI-gesprekken.

DeepReinforce, een AI-onderzoekslaboratorium dat voorheen bekend stond om CUDA-L1 en de IterX-code-agent-optimalisatielus, bracht eind vorige week Ornith-1.0 uit: een familie van open-source coderingsmodellen die beschikbaar zijn op Hugging Face in vier maten gebaseerd op het aantal parameters: 9 miljard, 31 miljard, 35 miljard mix van experts en een vlaggenschip van 397 miljard mix van experts, allemaal onder MIT-licentie zonder regionale beperkingen.

Parameters zijn in feite het aantal draaiknoppen en configuraties dat een model tijdens zijn training aankan. Hoe meer parameters, hoe capabeler een model is. Een model met 9 miljard parameters wordt als klein beschouwd, goed genoeg om op een goede smartphone te draaien, maar niet in staat om op betrouwbare wijze zware redeneertaak uit te voeren. Een model van 397 miljard is veel capabeler, maar vereist behoorlijk wat rekenkracht, van het soort dat niet beschikbaar is op consumentenhardware.

Het laboratorium beschrijft het als "een zichzelf verbeterende familie van open-sourcemodellen speciaal voor agentische codeertaken." Dat woord – agentisch – doet veel werk.

Hallo! 🌺 Maak kennis met Ornith-1.0, een familie van open-source LLM's gespecialiseerd in agentische codering.

Ornith-1.0 omvat de volledige parametergroottes, waaronder 9B Dense, 31B Dense, 35B MoE en 397B MoE. Het behaalt state-of-the-art prestaties onder open-source modellen van vergelijkbare grootte op… pic.twitter.com/7g1rmacLps

— Ornith (@ornith_) 25 juni 2026

De meeste AI waarmee mensen communiceren, is conversatie: jij typt, het reageert, de uitwisseling eindigt. Agentische AI is anders: het krijgt een taak en onderneemt acties om deze te voltooien zonder dat een mens elke stap begeleidt. In een codeercontext betekent dit een AI die bestanden leest, tests uitvoert, identificeert wat er is mislukt, de code repareert en opnieuw doorloopt totdat het klaar is.

Agentic AI betekent dus dat niemand het grootste deel van de tijd achter het toetsenbord hoeft te zitten. Dat is het hele punt. Dit is ook de richting waarin in 2026 de commercieel meest relevante vooruitgang plaatsvindt: de modellen die zonder toezicht door 20-staps ontwikkelworkflows kunnen draaien, zijn meer waard dan de modellen die op verzoek een schone functie schrijven.

De meeste grote taalmodellen zijn echter nog steeds ontworpen met menselijke feedback in gedachten.

Hoe het brein van Ornith werkt De meeste AI-codeeragenten zijn gekoppeld aan een door mensen ontworpen harnas: een vaste set regels voor hoe de agent zijn werk structureert: wanneer hij een tool moet oproepen, hoe hij met een fout moet omgaan, hoe hij een uit meerdere stappen bestaand probleem moet ontleden. Ornith 'behandelt het schavot in plaats daarvan als een leerbaar object dat mee-evolueert met het beleid.'

Vertaling: in plaats van het speelboek van iemand anders te erven, ontwikkelt het zijn eigen draaiboek.

Tijdens versterkend leren gebeurt elke trainingsstap in twee fasen. Het model leest eerst de taak en stelt een verfijnde strategie voor om deze te benaderen. Vervolgens gebruikt het die strategie om een oplossing te genereren.

De beloning van de uitkomst vloeit terug naar beide fasen, zodat het model is geoptimaliseerd voor het schrijven van betere strategieën, niet alleen voor betere code. Als je dat duizenden en miljoenen keren doet, ontstaan er taakspecifieke benaderingen zonder dat een mens deze heeft ontwikkeld.

DeepReinforce neemt beloningshacking ook serieus. Als het model zijn eigen trainingsscaffold kan schrijven, kan het in theorie een scaffold schrijven die de verifier bespeelt: een bestand aanraken zodat het lijkt alsof het een taak heeft voltooid zonder het werk daadwerkelijk te doen. Drie verdedigingslagen blokkeren dit: de omgeving en het testpakket zijn onveranderlijk en buiten het bereik van het model, een deterministische monitor markeert elke poging om toegang te krijgen tot beperkte paden of om verificatiescripts te wijzigen, en een bevroren rechtermodel staat als veto bovenop de geautomatiseerde verificateur.

De cijfers Het vlaggenschip van het parametermodel van 397 miljard posten 82,4 op SWE-bench Verified – een test waarbij een AI een echte bug uit een open-source GitHub-repository krijgt en deze moet repareren zonder de testsuite te zien, gescoord als het percentage problemen dat het met succes oplost.

Dat verslaat de 80.8 van Claude Opus 4.7 en de 80.6 van DeepSeek-V4-Pro in dezelfde test. Op Terminal Bench 2.1 worden 89 taken uitgevoerd in gecontaineriseerde terminalomgevingen, variërend van het debuggen van asynchrone code tot het oplossen van beveiligingsproblemen, gescoord op voltooiingspercentage. Het scoort 77,5 tegen Claude Opus 4.7's 70.3.

Gezien het feit dat er publiekelijk bezorgdheid is geuit over de besmetting van de SWE-bench – OpenAI betoogde eerder dit jaar dat modellen de scores opdreven door benchmarkoplossingen uit het hoofd te leren die tijdens de training werden gezien – rapporteert Ornith ook cijfers over SWE-bench Pro, een hardere versie die meer diverse, minder gelekte codebases gebruikt en op dezelfde manier scoorde. Het 397 miljard-model komt daar op 62,2 terecht. Betekenisvol lager, maar nog steeds concurrerend met het veld, en nog steeds beter dan Deepseek V4 Pro.

Het 9 miljard parametermodel zou het interessantere datapunt kunnen zijn. Het scoort 69,4 op SWE-bench Verified - hoger dan Gemma 4-31B's 52 en concurrerend met Qwen 3,5-35B's 70, ondanks dat het 3-4 keer kleiner is.

Voor wie is het bedoeld en voor wie is het nietOrnith-1.0 is expliciet geen AI voor algemene doeleinden. De eigen documentatie van het model zegt dat het mogelijk ondermaats presteert bij taken buiten agentische codering. Als je wilt dat AI een document samenvat, je helpt bij het schrijven van je proefschrift of een e-mail opstelt, dan is Ornith-1.0 de verkeerde keuze.

Het is geoptimaliseerd voor een beperkt aantal problemen: pijplijnen voor ontwikkelaars waar een AI-agent een taakbeschrijving opneemt, binnen een coderepository of terminalsessie opereert en werk in meerdere stappen voltooit zonder tussenkomst. Dit is een tool die is gebouwd voor mensen die al een agentinfrastructuur beheren, niet voor mensen die proberen te beslissen of AI de moeite waard is om te gebruiken.

De kop 'beats Claude' is reëel, maar vereist context. Zoals Decrypt meldde, jaagt elk laboratorium nu op de prestaties van agentische coderingsevaluaties, omdat daar de nuttige prestatieverschillen zitten.

Ornith-1.0-397B overtreft Claude Opus 4.7 op beide codeerbenchmarks, maar het huidige vlaggenschip van Anthropic, Claude Opus 4.8, scoort hoger. De vergelijking die geldt is binnen de open-sourcecategorie, bij vergelijkbare parameteraantallen, voor coderingsspecifieke agenttaken.

Voor ontwikkelaars die zelfgehoste coderingspijplijnen, agentische infrastructuur of soortgelijk coderingsgericht werk bouwen, kunnen de kleine en middelgrote modellen die op edge-hardware draaien echt nuttig zijn, maar de gemiddelde Joe ziet er misschien beter uit ergens anders.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Strategie maakt een einde aan een reeks verliezen van 9 dagen nu Bitcoin Giant een 'robuust' kapitaalraamwerk adopteert Donald Trump heeft 10 dagen om te beslissen over de huisvestingswet met CBDC-verbod →