Microsoft heeft GPT en Claude laten samenwerken, en het resultaat overtreft alle beschikbare AI-onderzoekstools

Default Door Remote - 30 Mar 2026

In het kort

Microsoft heeft twee verschillende modi uitgebracht die GPT en Claude combineren om de kwaliteit van AI-onderzoek te verhogen.

Kritiek zorgt ervoor dat de modellen samenwerken, terwijl de Raad ze parallel laat werken, terwijl een derde rechter de discrepanties ontdekt.

Deze workflow met twee modellen lost hallucinaties, zwakke citaten en andere problemen op die verband houden met AI-onderzoek met monomodellen.

Diepgaande onderzoeks-AI is dit jaar een van de populairste wapenwedlopen in de technologie geweest. Google kondigde in december 2024 zijn onderzoeksagent voor Gemini aan, OpenAI bracht in februari 2025 zijn eigen onderzoeksagent uit, xAI volgde, Perplexity verdubbelde en Claude van Anthropic bouwde een loyale aanhang op onder professionals die gedetailleerde, geciteerde antwoorden nodig hebben, door zijn agent in april vorig jaar te introduceren.

Elk bedrijf heeft geprobeerd u ervan te overtuigen dat hun enige AI-model de slimste onderzoeker ter wereld is. Microsoft zei zojuist: waarom zou je er één kiezen?

Het bedrijf kondigde maandag twee nieuwe functies aan voor de Researcher-tool van Copilot – Critique en Council genaamd – waarmee GPT van OpenAI en Claude van Anthropic achtereenvolgens aan dezelfde onderzoekstaak konden werken. Het resultaat, volgens de tests van Microsoft tegen een branchebenchmark, scoort hoger dan elk systeem dat in die test is opgenomen, inclusief modellen van de beste AI-bedrijven.

Introductie van Critique, een nieuw diepgaand onderzoekssysteem met meerdere modellen in M365 Copilot.

U kunt meerdere modellen samen gebruiken om optimale reacties en rapporten te genereren. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) 30 maart 2026

"Critique is een nieuw diepgaand onderzoekssysteem met meerdere modellen, ontworpen voor complexe onderzoekstaken. Het scheidt generatie van evaluatie en maakt gebruik van een combinatie van modellen uit Frontier-labs, waaronder Anthropic en OpenAI", legt Microsoft uit. “Eén model leidt de generatiefase, plant de taak, herhaalt het ophalen en produceert een eerste concept, terwijl een tweede model zich richt op beoordeling en verfijning en optreedt als deskundige beoordelaar voordat het eindrapport wordt geproduceerd.”

Dit is het fundamentele probleem dat Critique moet oplossen: elk AI-onderzoeksinstrument werkt tegenwoordig op dezelfde manier. Jij stelt een vraag, één model plant een zoektocht, doorzoekt bronnen, schrijft een rapport en geeft het aan jou terug. Dat ene model doet alles zonder dat iemand zijn werk controleert.

Dit kan ertoe leiden dat er hallucinaties binnensluipen, fouten in citaten, valse of onnauwkeurige beweringen, enz.

Kritiek verdeelt die workflow in tweeën. GPT verzorgt de eerste fase: het plant het onderzoek, haalt bronnen op en schrijft een eerste concept. Vervolgens komt Claude tussenbeide als strikte redacteur, waarbij hij het rapport beoordeelt op feitelijke nauwkeurigheid, citatiekwaliteit en of het antwoord daadwerkelijk beantwoordt aan wat er werd gevraagd. Pas na die beoordeling bereikt het eindrapport de gebruiker. Microsoft zegt dat de rollen uiteindelijk ook in de tegenovergestelde richting kunnen lopen, waarbij Claude het concept schrijft en de GPT bekritiseert, hoewel GPT voorlopig voorop gaat.

Op de DRACO-benchmark – een gestandaardiseerde test die 100 complexe onderzoekstaken omvat in 10 domeinen, waaronder geneeskunde, recht en technologie – scoorde Copilot with Critique 57,4. punten, terwijl Claude Opus 4.6 van Anthropic zelf 42,7 behaalde. Het gecombineerde systeem van Microsoft verslaat het op een na beste resultaat met bijna 14%.

Afbeelding: Microsoft De grootste winst kwam naar voren in de breedte van de analyse en de kwaliteit van de presentatie, waarbij ook de feitelijke nauwkeurigheid een aanzienlijke verbetering opleverde.

Het tweede onderdeel, Raad, hanteert een andere benadering van hetzelfde probleem. In plaats van het ene model het werk van het andere te laten beoordelen, voert de Council GPT en Claude tegelijkertijd uit en plaatst hun volledige rapporten naast elkaar. Een derde 'rechter'-model leest vervolgens beide en schrijft een samenvatting waarin wordt uitgelegd waar de twee AI's het over eens waren, waar ze uiteen liepen, en welke unieke invalshoeken elk opmerkte en de ander miste. Het handmatig vergelijken van AI-onderzoekstools was iets dat gebruikers tot nu toe zelf moesten doen.

In Critique werken de modellen in wezen met elkaar samen, terwijl in Council de modellen met elkaar concurreren.

Kritiek is de standaardervaring in Researcher, terwijl Council vereist dat je 'Model Council' selecteert in de kiezer om de zij-aan-zij-modus te activeren. Beide functies zijn momenteel beschikbaar voor gebruikers die zijn ingeschreven voor het Frontier-programma van Microsoft, het kanaal voor vroege toegang tot de nieuwste mogelijkheden van Copilot. Een Microsoft 365 Copilot-licentie ($30/gebruiker/maand) is vereist, maar gebruikers moeten ook bij Frontier zijn ingeschreven om er toegang toe te krijgen.

Afbeelding: MicrosoftOpenAI en Microsoft hebben een partnerschap van meerdere miljarden dollars, maar Microsoft gokt erop dat geen enkel model lang aan de top blijft, en dat de echte waarde zit in de orkestratielaag die taken naar de combinatie stuurt die het beste werkt.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Senatoren onthullen het ‘Mined in America’-wetsvoorstel om de Bitcoin-mijnbouw te stimuleren en de reserve van Trump te ondersteunen Democraten dringen aan op waarschuwingen aan federale functionarissen tegen weddenschappen met voorkennis op voorspellingsmarkten →