Perplexity wil dat uw laptop een deel van het AI-werk doet, dus dat hoeft niet

Default Door Remote - 03 Jun 2026

In het kort

Perplexity kondigde op Computex 2026 'hybrid agentic inference' aan, een systeem dat AI-workloads automatisch verdeelt tussen het lokale apparaat van een gebruiker en cloudgebaseerde grensmodellen – geen handmatige configuratie vereist.

De functie komt in juli naar Perplexity Computer, wordt gedemonstreerd op Intel Core Ultra Series 3-processors en is momenteel exclusief voor de Windows PC-app.

CEO Aravind Srinivas schetste de beweging rond kostenefficiëntie: de omzet van Perplexity groeide vervijfvoudigd tot $500 miljoen, terwijl het personeelsbestand met slechts 34% toenam, en het weglaten van gevolgtrekkingen naar gebruikershardware zorgt ervoor dat die verhouding blijft werken.

CEO van Perplexity, Aravind Srinivas, betrad op 2 juni het podium op Computex 2026 in Taipei, samen met Intel-CEO Lip-Bu Tan, om aan te kondigen wat het bedrijf de eerste hybride inferentie-orkestrator voor lokale servers noemt. Het systeem, dat in juli naar Perplexity Computer komt, beslist automatisch welke delen van een AI-taak op uw machine worden uitgevoerd en welke delen naar krachtigere modellen in de cloud worden gerouteerd, zonder u te vragen een keuze te maken.

“Vandaag kondigen we de volgende stap aan voor Personal Computer: de eerste hybride inferentie-orkestrator voor lokale servers”, kondigde Perplexity aan. “Het beslist welk werk op uw apparaat moet worden uitgevoerd en welk werk naar cloudagenten moet gaan, waarbij elk deel van een taak automatisch naar de juiste plaats wordt geleid”

“Het juiste doel voor een AI-systeem is om voor elke gebruiker de hoogste symbolische waarde per watt te leveren”, schreef Perplexity in de officiële aankondiging. Drie concurrerende factoren maken dat moeilijk: nauwkeurigheid vereist de meest capabele modellen, privacy vereist dat sommige gegevens uw machine nooit verlaten, en de kosten vereisen dat u de computerbronnen van een grensmodel niet besteedt aan een taak die een kleiner model aankan.

De oplossing die Perplexity 'hybride agentische inferentie' noemt, richt zich op alle drie tegelijk. Een compact model draait lokaal op uw apparaat en fungeert als verkeersagent: het zoekt uit welke informatie gevoelig genoeg is om lokaal te blijven en welke taken de volledige kracht van een cloudgebaseerd grensmodel nodig hebben.

"Hybride agentische inferentie is bedoeld voor werk dat gevoelige gegevens bevat, maar krachtige AI nodig heeft. Zaken als financiële gegevens, gezondheidsinformatie en persoonlijke bestanden", legt het bedrijf uit. "Het compacte model draait lokaal op je apparaat om te bepalen wanneer gevoelige gegevens ook lokaal moeten worden bewaard. Ondertussen draait werk dat de volledige capaciteit van een frontiermodel nodig heeft, op de server."

Moet je er rekening mee houden?

Inferentie (het proces waarbij een getraind AI-model wordt uitgevoerd om een reactie te genereren) is het rekenwerk dat plaatsvindt elke keer dat u een prompt naar een chatbot verzendt. Op dit moment gebeurt bijna alles op externe servers die eigendom zijn van AI-bedrijven. Dat betekent dat uw financiële documenten, gezondheidsvragen en privéaantekeningen naar de computer van iemand anders gaan voordat u antwoord krijgt.

Dit is de reden waarom je ‘Auto’-modi of ‘low thinking’-modi op je chatbot ziet. AI-bedrijven zullen altijd proberen gebruikers te dwingen interacties op de voor hen goedkoopste manier te routeren.

Srinivas is hierover direct geweest. In een Bloomberg Television-interview bij Computex zei hij het stille gedeelte hardop: "Je wilt niet dat al je rekenkracht gecentraliseerd is op servers en dat alles via de grootste modellen loopt. Sommige mensen geven een half miljard dollar per maand uit. Wat je eigenlijk wilt is een efficiënte waarde per watt per gebruiker." Door het inferentiewerk over te dragen aan gebruikershardware worden deze rekeningen verlaagd – voor Perplexity.

Lokale gevolgtrekking is het beste voor die bedrijven, omdat het een groot deel van de kosten bespaart, maar het heeft een belangrijk voordeel voor AI-gebruikers: het houdt die gegevens op uw machine. De wisselwerking is altijd macht geweest: kleinere modellen die lokaal draaien, zijn minder capabel dan de grote modellen die in datacenters leven.

De orkestrator van Perplexity probeert beide te bemachtigen. Eenvoudige taken (het samenvatten van een document dat u al hebt geschreven, het opmaken van tekst, lichtgewicht classificatie) worden lokaal uitgevoerd. Complexe redeneringen worden naar de cloud geleid, idealiter zonder dat de gevoelige delen van uw taak eraan verbonden zijn. Het bedrijf zegt dat dit automatisch gebeurt, halverwege de taak, onzichtbaar voor de gebruiker. Of de routing in de praktijk net zo betrouwbaar is als het klinkt in een Computex-demo, is een vraag die de uitrol in juli zal beantwoorden.

Eén verduidelijking die de moeite waard is: dit is niet Perplexity die een open-source lokaal model weggeeft dat jij beheert. De lokale component is een compact model dat Perplexity inzet als onderdeel van zijn app. De cloudcomponent loopt nog steeds via de servers van Perplexity. Gebruikers die een volledig offline, zelfgehoste installatie willen, zoals projecten zoals MiniCPM5-1B bieden, zullen dat hier niet vinden.

De cijfers geven die kadercontext weer. De omzet van Perplexity groeide van $100 miljoen naar $500 miljoen, terwijl het personeelsbestand met slechts 34% toenam, maakte Srinivas in april bekend. Een bedrijf dat zoekopdrachten doorstuurt naar modellen die het niet traint, heeft sterke prikkels om de rekenkosten zo laag mogelijk te houden. Het verschuiven van een deel van de gevolgtrekkingslast naar de apparaten van gebruikers (miljarden pc's die al in omloop zijn) is een efficiënte manier om dat te doen. Het privacyveld is reëel, maar sluit gemakkelijk aan bij het financiële.

Wie doet dit nog meer

Elke grote speler op het gebied van AI streeft momenteel naar on-device of hybride gevolgtrekking. Apple Intelligence voert de meest gevoelige verwerking lokaal uit op chips uit de M-serie. Foundry Local van Microsoft werd in april 2026 algemeen beschikbaar, waardoor volledige AI-inferentie op Windows, macOS en Linux mogelijk werd zonder afhankelijkheid van de cloud.

Nvidia kondigde RTX Spark aan op dezelfde Computex waar Perplexity zijn aankondiging deed, gericht op lokale LLM-gevolgtrekking op laptops en desktops. De aanpak van Google is, zoals Decrypt meldde, controversiëler: Chrome installeerde stilletjes een Gemini Nano-model van 4 GB zonder toestemming van de gebruiker, en de knop 'AI-modus' die de meeste gebruikers eigenlijk zien, gebruikt deze niet eens.

De differentiatie van Perplexity is de orkestratielaag. In plaats van gebruikers vooraf te vragen lokaal of in de cloud te kiezen, beslist het systeem in realtime per taak. Srinivas zei dat de aanpak "chip-agnostisch" is: de Computex-demo draaide op Intel Core Ultra Series 3, maar Nvidia-processors worden ook ondersteund. De functie is momenteel exclusief voor de Perplexity voor Windows PC-app, waarbij een bredere uitroltijdlijn nog niet is bevestigd.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Door Crypto PAC ondersteunde kandidaten veroveren Amerikaanse voorverkiezingen na media-aankopen Iemand heeft zojuist een 15 jaar oude fysieke Bitcoin ingewisseld en $1,78 miljoen aan BTC gescoord →