Default
Door Remote - 02 Jun 2026
AI-onderzoekers en -laboratoria zijn met grote sprongen vooruitgegaan bij het evalueren van AI-modellen voor alles, van veiligheid en compliance tot sycofantie en afstemming. Maar het lijkt erop dat bedrijven en ontwikkelaars worden geconfronteerd met een nieuwe, specifieke behoefte: ervoor zorgen dat hun AI-systeem zich gedraagt zoals bedoeld voor hun specifieke product of dienst.
In een poging om dat testproces eenvoudiger te maken, heeft Microsoft dinsdag de laatste hand gelegd aan ASSERT, een afkorting van Adaptive Spec-driven Scoring for Evaluation and Regression Testing.
Het open source-framework maakt het evalueren van applicatiespecifiek AI-gedrag eenvoudig, zegt Microsoft, door AI te gebruiken om hoogwaardige, natuurlijke taalbeschrijvingen van doelen, beleid of beoogd gedrag om te zetten in grondige, gescoorde tests die kunnen worden onderzocht.
ASSERT neemt eenvoudige beschrijvingen van het verwachte gedrag en beleid van een AI-model, verandert deze in een gestructureerde reeks acceptabel en onaanvaardbaar gedrag, genereert probleemscenario's en testgevallen, vergelijkt deze met het doelsysteem en scoort de resultaten. Het kan ook de paden registreren die het AI-systeem aflegt, inclusief tussentijdse acties en tooloproepen, zodat ontwikkelaars kunnen inspecteren waar fouten optreden.
Ontwikkelaars kunnen ook systeemcontext, tools en beperkingen bieden als ze verder willen aanpassen wat de evaluaties omvatten.
Een ontwikkelaar zou bijvoorbeeld kunnen specificeren dat een AI-agent voor documentonderzoek geen e-mails mag sturen naar mensen buiten het bedrijf, en dat hij vertrouwelijke informatie moet beperken tot leidinggevenden op C-niveau en beknopte samenvattingen moet geven met de voorafgaande context in gedachten. Met behulp van deze regels genereert ASSERT testgevallen die voortdurend controleren of het systeem deze regels volgt.
Beeldcredits: Microsoft
Volgens Microsoft vult het raamwerk een leemte op die bredere, meer algemene evaluaties niet kunnen bieden wanneer AI-modellen zich moeten gedragen op een manier die wordt gevormd door de context, het beleid en de hulpmiddelen van een applicatie of product.
“Een van de dingen die we hebben geleerd is dat evaluaties absoluut cruciaal zijn voor het nemen van goede beslissingen”, zegt Sarah Bird, Chief Product Officer van Responsible AI bij Microsoft. “Want als je het gedrag van het AI-systeem niet begrijpt, is het heel moeilijk om te weten of het aan de eisen van jouw organisatie voldoet… Wat we ontdekten is dat als je echt een betrouwbaar systeem wilt hebben, je veel meer dimensies moet evalueren die toepassingsspecifiek zijn.”
Bird zei dat ASSERT kan worden gebruikt om systemen te evalueren tijdens de bouw, na de implementatie en zelfs voor continue monitoring.
De release komt te midden van een geleidelijke maar bredere verschuiving in de AI-industrie. Naarmate modellen steeds capabeler worden, concentreren onderzoekers zich op herhaalbare tests en regressiecontroles, waarbij Stanford's HELM, MLCommons' AILuminate en evaluatiegroepen zoals METR benchmarks uitrollen om te meten hoe modellen zich onder verschillende omstandigheden gedragen.
In een poging om dat testproces eenvoudiger te maken, heeft Microsoft dinsdag de laatste hand gelegd aan ASSERT, een afkorting van Adaptive Spec-driven Scoring for Evaluation and Regression Testing.
Het open source-framework maakt het evalueren van applicatiespecifiek AI-gedrag eenvoudig, zegt Microsoft, door AI te gebruiken om hoogwaardige, natuurlijke taalbeschrijvingen van doelen, beleid of beoogd gedrag om te zetten in grondige, gescoorde tests die kunnen worden onderzocht.
ASSERT neemt eenvoudige beschrijvingen van het verwachte gedrag en beleid van een AI-model, verandert deze in een gestructureerde reeks acceptabel en onaanvaardbaar gedrag, genereert probleemscenario's en testgevallen, vergelijkt deze met het doelsysteem en scoort de resultaten. Het kan ook de paden registreren die het AI-systeem aflegt, inclusief tussentijdse acties en tooloproepen, zodat ontwikkelaars kunnen inspecteren waar fouten optreden.
Ontwikkelaars kunnen ook systeemcontext, tools en beperkingen bieden als ze verder willen aanpassen wat de evaluaties omvatten.
Een ontwikkelaar zou bijvoorbeeld kunnen specificeren dat een AI-agent voor documentonderzoek geen e-mails mag sturen naar mensen buiten het bedrijf, en dat hij vertrouwelijke informatie moet beperken tot leidinggevenden op C-niveau en beknopte samenvattingen moet geven met de voorafgaande context in gedachten. Met behulp van deze regels genereert ASSERT testgevallen die voortdurend controleren of het systeem deze regels volgt.
Beeldcredits: Microsoft
Volgens Microsoft vult het raamwerk een leemte op die bredere, meer algemene evaluaties niet kunnen bieden wanneer AI-modellen zich moeten gedragen op een manier die wordt gevormd door de context, het beleid en de hulpmiddelen van een applicatie of product.
“Een van de dingen die we hebben geleerd is dat evaluaties absoluut cruciaal zijn voor het nemen van goede beslissingen”, zegt Sarah Bird, Chief Product Officer van Responsible AI bij Microsoft. “Want als je het gedrag van het AI-systeem niet begrijpt, is het heel moeilijk om te weten of het aan de eisen van jouw organisatie voldoet… Wat we ontdekten is dat als je echt een betrouwbaar systeem wilt hebben, je veel meer dimensies moet evalueren die toepassingsspecifiek zijn.”
Bird zei dat ASSERT kan worden gebruikt om systemen te evalueren tijdens de bouw, na de implementatie en zelfs voor continue monitoring.
De release komt te midden van een geleidelijke maar bredere verschuiving in de AI-industrie. Naarmate modellen steeds capabeler worden, concentreren onderzoekers zich op herhaalbare tests en regressiecontroles, waarbij Stanford's HELM, MLCommons' AILuminate en evaluatiegroepen zoals METR benchmarks uitrollen om te meten hoe modellen zich onder verschillende omstandigheden gedragen.

