Nvidia heeft robots gebouwd die zichzelf trainen met behulp van AI-coderingsagenten

Default Door Remote - 17 Jun 2026

In het kort

Nvidia, Carnegie Mellon en UC Berkeley hebben ENPIRE uitgebracht, een raamwerk waarmee AI-codeeragenten de volledige cyclus van het aanleren van nieuwe vaardigheden aan robots kunnen uitvoeren zonder menselijk toezicht.

Agenten met Codex, Claude Code en Kimi Code zorgden ervoor dat een vloot van acht robots een slagingspercentage van 99% behaalde bij taken als het inbrengen van pins, het inbrengen van GPU's en het doorknippen van kabelbinders.

Door van één robot naar acht te schalen, werd de tijd die nodig was om een taak uit te voeren met meer dan de helft teruggebracht, hoewel de symbolische rekening nog sneller groeide dan de bespaarde tijd.

Een vloot van acht robotarmen in het GEAR-lab van Nvidia heeft zichzelf de afgelopen weken geleerd hoe ze spelden moeten insteken, grafische kaarten moeten plaatsen en kabelbinders moeten doorknippen. De enige mensen die erbij betrokken waren, waren degenen die het artikel daarna schreven.

De vaardigheid kwam van ENPIRE, een raamwerk dat wordt beschreven in een artikel dat dinsdag is gepubliceerd door onderzoekers van Nvidia, Carnegie Mellon University en UC Berkeley. ENPIRE geeft de hele taak van het trainen van een robot over aan AI-codeeragenten, dezelfde software die al zijn eigen code schrijft en test, en laat hen dat proces rechtstreeks op fysieke hardware uitvoeren.

Codeermiddelen zoals OpenAI's Codex, Anthropic's Claude Code en Moonshot's Kimi Code hebben het afgelopen jaar gewerkt aan wat onderzoekers autoresearch noemen: code schrijven, testen en opnieuw schrijven zonder dat iemand erbij betrokken was. Die lus is grotendeels op een scherm gebleven, waar het resetten van een mislukt experiment niets kost. ENPIRE sleept het naar de fysieke wereld, waar het resetten van een experiment betekent dat een echte robotarm moet worden verplaatst.

Het bouwen van de ‘Enpire’Het systeem verdeelt het werk in twee fasen. In het eerste geval begeleidt een mens de agent bij het bouwen van twee permanente hulpmiddelen: een resetroutine die de werkruimte terugbrengt naar een nieuwe startpositie, en een beloningsfunctie die naar camerabeelden kijkt om succes te boeken – in feite een scheidsrechter die nooit met zijn ogen knippert en nooit een lunchpauze neemt. Die opstelling gebeurt één keer en wordt vervolgens hergebruikt voor elke volgende poging.

Zodra deze tools bestaan, neemt de agent het volledig over. Het zoekt in gepubliceerd onderzoek naar ideeën, kiest tussen trainingsmethoden zoals imitatieleren, versterkend leren of handgeschreven regels, herschrijft vervolgens zijn eigen code en test het resultaat op de robot. Niets in die lus vereist dat iemand kijkt, wat bevrijdend of enigszins verontrustend is, afhankelijk van hoe je denkt over een robot die zonder toezicht een schaar vasthoudt.

Nvidia voerde het experiment uit op acht bimanuele robotstations, elk met zijn eigen hardware, computer en coderingsagent. De stations wisselen hun voortgang uit via Git, dezelfde tool die programmeurs gebruiken om code samen te voegen, zodat een winnend idee zich binnen enkele minuten door de hele vloot verspreidt.

Onderzoekers maten de uitbetaling van ‘Push-T’, een taak waarbij een robot een T-vormig blok in een doelzone schuift met alleen maar duwen en het inbrengen van pins, waarbij hij pins in gaten van 4 millimeter steekt. Door van één robot naar acht te schalen, werd de tijd om Push-T onder de knie te krijgen teruggebracht van ongeveer vijf uur naar twee, en het inbrengen van de pin van ruim 90 minuten naar ongeveer 40 minuten.

Volgens de krant behaalden de agenten bij de vier geteste taken in de echte wereld een succespercentage van 99%. Voor het inbrengen van pins bereikten de agenten sneller een bijna perfecte betrouwbaarheid dan een vergelijkbare human-in-the-loop-methode, het soort waarbij er nog steeds elke ochtend iemand moet komen opdagen.

Jim Fan van Nvidia, de co-leider van GEAR Lab die het AI-onderzoek van het bedrijf leidt, noemde het project een poging om AutoResearch voor de eerste keer in de fysieke wereld mogelijk te maken. Fan zei dat het team de agenten een vloot robots, een GPU-toewijzing en een tokenbudget overhandigde, vervolgens een stap terug deed en de robots het overliet.

Vandaag maken we AutoResearch voor het eerst mogelijk in de fysieke wereld! Introductie van ENPIRE: we geven 8 Codex-agenten een vloot robots, een toewijzing van GPU's en een genereus tokenbudget. We hebben ze vrijgelaten met een eenvoudig doel: de taak zo snel mogelijk oplossen, de robots bezig houden… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) 16 juni 2026

De kloof tussen simulatie en realiteit kwam vrijwel onmiddellijk aan het licht. Alle drie de codeeragenten hebben Push-T opgelost in een simulator, maar twee van de drie faalden toen dezelfde taak naar een fysieke robot werd verplaatst, merkt de krant op.

Simulators hebben geen wrijvingsproblemen. Echte tafels doen dat wel.

Nvidia heeft ENPIRE ook getest in RoboCasa, een gesimuleerde keukenbenchmark die robots beoordeelt op klusjes zoals het openen van kasten of het uitschakelen van fornuizen op basis van succespercentage, gelukkig zonder enig risico dat de keuken platbrandt. Daar presteerde ENPIRE beter dan zowel Nvidia's eigen end-to-end model GR00T als CaP-X, een toolgebruikende agent die de autoresearch-loop volledig overslaat.

ENPIRE breidt een idee uit dat Nvidia voor het eerst naar voren bracht met Eureka, een systeem uit 2023 dat een taalmodel gebruikte om beloningsfuncties voor robots in een simulator te schrijven in plaats van menselijke ingenieurs dit met de hand te laten doen. ENPIRE verplaatst die zelfverbeteringslus van de simulator naar echte hardware, waarbij de agent zijn eigen tests ontwerpt in plaats van alleen zijn eigen beloningen.

De release komt uit in dezelfde week dat Alibaba zijn eigen belichaamde AI-push onthulde, de Qwen-Robot Suite, een drietal basismodellen voor robotnavigatie, manipulatie en natuurkundige simulatie. Alibaba bouwt softwarehersenen voor robotlichamen die het niet zelf produceert; Nvidia test of agenten de hele onderzoekscyclus van begin tot eind kunnen uitvoeren op de hardware die het in zijn bezit heeft. Beide wijzen op dezelfde trend: fysieke robots worden de volgende arena waarin codeeragenten kunnen concurreren.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Epic Games legt uit hoe het generatieve AI omarmt in Unreal Engine Tiffany Luck van NEA zegt dat bedrijven nog steeds bezig zijn met het uitzoeken van hun AI-ROI →