Default
Door Remote - 09 Jun 2026
De opkomst van AI is gebaseerd op een basisaanname: grotere modellen zijn krachtiger en de krachtigste modellen winnen. Now, the industry is about to learn what happens if that assumption starts to break.
De montagekosten hebben gebruikers al onder druk gezet om kleinere en goedkopere modellen nog eens te bekijken. Deze kostenbewuste model-shopping is nieuw en het is onduidelijk welke gevolgen dit voor de sector zal hebben, maar de impact zal waarschijnlijk aanzienlijk zijn.
Eén voorspelling, het beste uiteengezet door mede-oprichter van Coinbase, Brian Armstrong, is dat dit ertoe zal leiden dat de overgrote meerderheid van de taken zal verschuiven naar goedkopere modellen.
“De vraag naar intelligentie is vrijwel oneindig, maar 80% van de workloads zal binnen 12 tot 18 maanden op 99% goedkopere modellen draaien”, schreef Armstrong over X. “20% van de workloads zal nog steeds draaien op de nieuwste generatie modellen waarbij IQ-maxing belangrijk is.”
Het is moeilijk te overschatten wat een belangrijke verschuiving het zal zijn voor de AI-industrie als de voorspelling van Armstrong uitkomt.
Voorheen concurreerden de meeste AI-bedrijven op kwaliteit, wat betekende dat ze standaard het meest geavanceerde beschikbare model moesten gebruiken. Als diezelfde banen kunnen worden afgehandeld door goedkopere modellen zonder de kwaliteit aan te tasten, zou dit een enorme verschuiving in de economie van AI betekenen. En cruciaal is dat een groot deel van de besparingen uit de zakken van de grote laboratoria zou komen, wat een financiële klap zou toebrengen aan OpenAI en Anthropic, net op het moment dat ze op weg zijn naar hun beursintroductie.
Het is een potentieel seismische verandering in de sector, gebaseerd op één fundamentele vraag: zijn bedrijven klaar om over te stappen op kleinere modellen?
Uit de eerste tests blijkt dat, als het systeem goed is ingericht, goedkopere modellen kunnen invallen zonder dat dit ten koste gaat van de kwaliteit. In een recente test van de juridische AI-tool Harvey kon het bedrijf de inferentiekosten drie keer verlagen zonder dat dit ten koste ging van de kwaliteit. De test, uitgevoerd in samenwerking met het inferentieplatform Fireworks AI, combineerde Claude Opus en GLM 5.1 van Fireworks en schakelde over naar Opus voor de meest intensieve taken. Het resultaat was een aanzienlijk lagere belasting in termen van servertijd en totale kosten.
“Kwaliteit komt op de eerste plaats, en dat zal in de juridische sector altijd zo blijven”, vertelde Harvey-medeoprichter Gabe Pereyra aan TechCrunch, verwijzend naar de AI-juridische diensten die zijn startup biedt. “De definitie van kwaliteit evolueert echter van simpelweg het gebruik van het krachtigste model voor alles, naar het gebruik van het beste model dat op de meest efficiënte manier het juiste antwoord krijgt.”
Deze trend wordt vaak ingekaderd in termen van grote laboratoria versus Chinese modellen of open-weight-modellen, maar dat gaat voorbij aan het grotere punt. De echte kloof ligt niet tussen bedrijfseigen en open modellen; het zit tussen grote modellen en kleine modellen. U kunt geld besparen door over te stappen van GPT-5.5 naar DeepSeek's V4 Flash, maar overstappen naar GPT-5.4-mini werkt net zo goed.
Er is een actieve prijzenoorlog gaande tussen interne gevolgtrekkingen van de grote laboratoria en onafhankelijk bediende modellen met een open gewicht. Voor de grotere kwestie van klein versus groot maakt het niet echt uit welk soort klein model wint.
Dit alles lijkt misschien voor de hand liggend (je moet natuurlijk niet meer rekenkracht gebruiken dan nodig is), maar het druist in tegen de ‘scaling-first’-benadering die de sector tot nu toe heeft gedomineerd. Inspired by the bitter lesson, labs have leaned hard into training the most compute-intensive models possible, pushing the frontier of what AI models can do. Omdat de prijzen zwaar werden gesubsidieerd door investeerders, hadden klanten geen reden om iets anders te kiezen dan de meest geavanceerde optie.
Nu de tokenprijzen stijgen en de subsidies vertragen, worden gebruikers voor het eerst geconfronteerd met kostendruk. We weten niet of de nieuwe kostendruk zakelijke gebruikers daadwerkelijk naar kleinere modellen zal drijven. Ze zouden net zo goed kunnen besparen door minder te bellen, minder context te gebruiken of simpelweg de minst veelbelovende implementaties op te geven.
Maar als blijkt dat de meeste implementaties net zo goed op een kleiner model kunnen worden uitgevoerd, zou dit een serieuze domper kunnen zetten op de groeiende vraag naar gevolgtrekkingen – en nieuwe vragen kunnen oproepen over hoe de kosten van het trainen van een grensmodel kunnen worden gerechtvaardigd.
De montagekosten hebben gebruikers al onder druk gezet om kleinere en goedkopere modellen nog eens te bekijken. Deze kostenbewuste model-shopping is nieuw en het is onduidelijk welke gevolgen dit voor de sector zal hebben, maar de impact zal waarschijnlijk aanzienlijk zijn.
Eén voorspelling, het beste uiteengezet door mede-oprichter van Coinbase, Brian Armstrong, is dat dit ertoe zal leiden dat de overgrote meerderheid van de taken zal verschuiven naar goedkopere modellen.
“De vraag naar intelligentie is vrijwel oneindig, maar 80% van de workloads zal binnen 12 tot 18 maanden op 99% goedkopere modellen draaien”, schreef Armstrong over X. “20% van de workloads zal nog steeds draaien op de nieuwste generatie modellen waarbij IQ-maxing belangrijk is.”
Het is moeilijk te overschatten wat een belangrijke verschuiving het zal zijn voor de AI-industrie als de voorspelling van Armstrong uitkomt.
Voorheen concurreerden de meeste AI-bedrijven op kwaliteit, wat betekende dat ze standaard het meest geavanceerde beschikbare model moesten gebruiken. Als diezelfde banen kunnen worden afgehandeld door goedkopere modellen zonder de kwaliteit aan te tasten, zou dit een enorme verschuiving in de economie van AI betekenen. En cruciaal is dat een groot deel van de besparingen uit de zakken van de grote laboratoria zou komen, wat een financiële klap zou toebrengen aan OpenAI en Anthropic, net op het moment dat ze op weg zijn naar hun beursintroductie.
Het is een potentieel seismische verandering in de sector, gebaseerd op één fundamentele vraag: zijn bedrijven klaar om over te stappen op kleinere modellen?
Uit de eerste tests blijkt dat, als het systeem goed is ingericht, goedkopere modellen kunnen invallen zonder dat dit ten koste gaat van de kwaliteit. In een recente test van de juridische AI-tool Harvey kon het bedrijf de inferentiekosten drie keer verlagen zonder dat dit ten koste ging van de kwaliteit. De test, uitgevoerd in samenwerking met het inferentieplatform Fireworks AI, combineerde Claude Opus en GLM 5.1 van Fireworks en schakelde over naar Opus voor de meest intensieve taken. Het resultaat was een aanzienlijk lagere belasting in termen van servertijd en totale kosten.
“Kwaliteit komt op de eerste plaats, en dat zal in de juridische sector altijd zo blijven”, vertelde Harvey-medeoprichter Gabe Pereyra aan TechCrunch, verwijzend naar de AI-juridische diensten die zijn startup biedt. “De definitie van kwaliteit evolueert echter van simpelweg het gebruik van het krachtigste model voor alles, naar het gebruik van het beste model dat op de meest efficiënte manier het juiste antwoord krijgt.”
Deze trend wordt vaak ingekaderd in termen van grote laboratoria versus Chinese modellen of open-weight-modellen, maar dat gaat voorbij aan het grotere punt. De echte kloof ligt niet tussen bedrijfseigen en open modellen; het zit tussen grote modellen en kleine modellen. U kunt geld besparen door over te stappen van GPT-5.5 naar DeepSeek's V4 Flash, maar overstappen naar GPT-5.4-mini werkt net zo goed.
Er is een actieve prijzenoorlog gaande tussen interne gevolgtrekkingen van de grote laboratoria en onafhankelijk bediende modellen met een open gewicht. Voor de grotere kwestie van klein versus groot maakt het niet echt uit welk soort klein model wint.
Dit alles lijkt misschien voor de hand liggend (je moet natuurlijk niet meer rekenkracht gebruiken dan nodig is), maar het druist in tegen de ‘scaling-first’-benadering die de sector tot nu toe heeft gedomineerd. Inspired by the bitter lesson, labs have leaned hard into training the most compute-intensive models possible, pushing the frontier of what AI models can do. Omdat de prijzen zwaar werden gesubsidieerd door investeerders, hadden klanten geen reden om iets anders te kiezen dan de meest geavanceerde optie.
Nu de tokenprijzen stijgen en de subsidies vertragen, worden gebruikers voor het eerst geconfronteerd met kostendruk. We weten niet of de nieuwe kostendruk zakelijke gebruikers daadwerkelijk naar kleinere modellen zal drijven. Ze zouden net zo goed kunnen besparen door minder te bellen, minder context te gebruiken of simpelweg de minst veelbelovende implementaties op te geven.
Maar als blijkt dat de meeste implementaties net zo goed op een kleiner model kunnen worden uitgevoerd, zou dit een serieuze domper kunnen zetten op de groeiende vraag naar gevolgtrekkingen – en nieuwe vragen kunnen oproepen over hoe de kosten van het trainen van een grensmodel kunnen worden gerechtvaardigd.

