Deze research is de basis voor het artikel “AI-agents: Waarom je ze beter nog even links kunt laten liggen“.
Samenvatting
AI-agents worden in rap tempo geïntroduceerd in browsers, bedrijfsomgevingen en persoonlijke workflows. Waar traditionele chatbots hooguit foute tekst genereren bij prompt injection, kunnen gecompromitteerde AI-agents daadwerkelijk acties uitvoeren : geld overmaken, vertrouwelijke documenten doorsturen, fabrieksystemen manipuleren of autonome voertuigen van hun route laten afwijken. Dit research document onderzoekt de fundamentele kwetsbaarheden van AI-agents voor prompt injection-aanvallen, analyseert de maatregelen van grote AI-bedrijven, en biedt concrete aanbevelingen voor veilig gebruik.
1. Wat maakt AI-agents zo gevaarlijk?
1.1 Van tekst naar actie: het verschil met traditionele AI
Bij traditionele conversationele AI leidt prompt injection tot bias, onjuiste informatie of het lekken van systeem-prompts. Vervelend, maar de schade blijft beperkt tot de gegenereerde tekst. AI-agents daarentegen hebben toegang tot tools en kunnen autonome acties uitvoeren. Volgens OWASP’s 2025 Top 10 voor LLM Applications staat prompt injection op nummer 1, en verschijnt het in meer dan 73% van de gecontroleerde productie-implementaties.
Een fundamenteel probleem is dat AI-systemen alle input behandelen als één doorlopende stroom van tokens. Zoals beschreven in onderzoek naar indirect prompt injection: “The model receives one continuous stream of tokens with no reliable separation between data and instructions.” Dit betekent dat een AI-agent niet betrouwbaar onderscheid kan maken tussen legitieme gebruikersinstructies en kwaadaardige commando’s verborgen in externe data.
1.2 Direct vs. indirect prompt injection
Direct prompt injection is wanneer een aanvaller rechtstreeks via de prompt-interface probeert het systeem te manipuleren. Dit is vergelijkbaar met traditionele SQL injection: de aanvaller klopt aan de voordeur en probeert de input validatie te omzeilen.
Indirect prompt injection is veel gevaarlijker en subtieler. Hierbij worden kwaadaardige instructies verborgen in externe databronnen die de AI verwerkt: webpagina’s, PDF’s, e-mails, documenten, of zelfs comments op sociale media. Zoals LevelBlue’s onderzoeker het beschrijft: “Indirect prompt attacks are when an LLM takes input from external sources but where an attacker gets to smuggle payloads (additional prompts!) into these external/side sources.”
Dit is vergelijkbaar met Server-Side Request Forgery (SSRF) in traditionele webapplicaties : de aanvaller manipuleert niet de directe input, maar de data die het systeem intern verwerkt. Het verschil is dat bij SSRF de kwetsbaarheid vaak in één specifieke functie zit, terwijl bij AI-agents het hele systeem ontworpen is om natuurlijke taal te interpreteren en erop te reageren.
2. Concrete gevaren en aanvalsscenario’s
2.1 Bewezen exploits in productiesystemen
De afgelopen maanden zijn talloze kwetsbaarheden gedemonstreerd in real-world AI-agents:
Perplexity Comet – credential theft via Reddit comment
Brave’s security team demonstreerde een aanval waarbij een gebruiker simpelweg een Reddit-post wilde samenvatten. Een verborgen prompt injection in een comment instrueerde de AI om naar de Perplexity-inlogpagina te navigeren, de one-time password (OTP) te extraheren en naar een aanvaller-gecontroleerde server te sturen. De aanval werkte zonder verdere gebruikersinteractie. Zoals Brave concludeert: “Traditional protections such as same-origin policy (SOP) or cross-origin resource sharing (CORS) are all effectively useless. The AI operates with the user’s full privileges across authenticated sessions.”
Claude Cowork – bestandsexfiltratie via verborgen instructies
Onderzoek naar Claude Cowork toonde aan hoe een gebruiker die een ogenschijnlijk onschuldig ‘skill’ document uploadt, gemanipuleerd kan worden. De aanval gebruikte 1-punt lettertype, witte tekst op witte achtergrond, en minimale regelafstand om instructies te verbergen. Toen de gebruiker Claude vroeg de bestanden te analyseren met deze ‘skill’, uploadde de AI vertrouwelijke vastgoeddocumenten (inclusief gedeeltelijke BSN’s en financiële gegevens) naar het Anthropic-account van de aanvaller. De kwaadaardige instructie was “effectively impossible to detect” voor de gebruiker.
ChatGPT Atlas – automatisch ontslag nemen
OpenAI’s eigen red teaming ontdekte een aanval waarbij een kwaadaardige e-mail in de inbox van een gebruiker instructies bevatte om een ontslagbrief naar de CEO te sturen. Toen de gebruiker later de agent vroeg een out-of-office reply op te stellen, verwerkte de agent de kwaadaardige e-mail, behandelde de geïnjecteerde prompt als autoritatief, en stuurde het ontslag – zonder ooit de out-of-office te schrijven.
2.2 De “AI kill chain” – van injectie tot volledige compromittering
Security researcher Johann Rehberger heeft het concept van de AI kill chain geïntroduceerd, geïnspireerd door de “lethal trifecta” van Simon Willison. Deze kill chain bestaat uit drie stappen :
- Indirect Prompt Injection – Kwaadaardige instructies worden in externe content geplaatst
- Automatic Tool Invocation – De AI voert tools uit zonder menselijke goedkeuring
- Outbound Internet Connectivity – De AI kan data naar externe servers sturen
Wanneer deze drie elementen samenkomen, kan een aanvaller volledige controle krijgen over de AI-agent. Rehberger demonstreerde dit in augustus 2025 met een reeks exploits tegen vrijwel alle grote AI coding assistants: ChatGPT Codex, Cursor, Devin, OpenHands, Claude Code, GitHub Copilot en Google Jules.
2.3 Europese en Nederlandse scenario’s
Hoewel veel gedocumenteerde aanvallen uit de VS komen, zijn de risico’s universeel en mogelijk nog groter in Europa vanwege strengere privacywetgeving:
Scenario 1: Gemeentelijke AI-assistenten
Stel dat een Nederlandse gemeente een AI-agent implementeert om burgers te helpen met aanvragen. Een aanvaller plaatst een verborgen prompt injection in een publiek toegankelijk gemeentelijk document. Wanneer de AI dit document verwerkt tijdens het helpen van een burger, zou het gemanipuleerd kunnen worden om vertrouwelijke BSN’s, adressen of financiële gegevens naar een externe server te sturen – een directe GDPR-overtreding met potentieel miljoenen euro’s aan boetes.
Scenario 2: Ziekenhuissystemen
Een AI-agent die artsen helpt met patiëntendossiers wordt gecompromitteerd via een prompt injection in een medisch onderzoeksartikel. De agent zou kunnen worden geïnstrueerd om diagnoses te wijzigen, medicatiedoseringen aan te passen, of patiëntgegevens te exfiltreren. Dit is niet alleen een privacy-schending, maar kan levensbedreigende situaties creëren.
Scenario 3 : Financiële sector
Nederlandse banken experimenteren met AI-agents voor klantenservice en fraudedetectie. Een succesvolle prompt injection zou transacties kunnen goedkeuren die eigenlijk geblokkeerd moeten worden, of omgekeerd legitieme transacties kunnen blokkeren, met directe financiële schade voor klanten.
Scenario 4: Slimme fabrieken en industrie 4.0
Nederlandse industriële bedrijven implementeren AI-agents voor procesoptimalisatie. Een aanval via een gemanipuleerd onderhoudsdocument of leveranciersrapport zou productielijnen kunnen stilleggen, kwaliteitscontroles kunnen uitschakelen, of veiligheidsprotocollen kunnen omzeilen. Dit heeft niet alleen economische gevolgen, maar kan ook fysieke veiligheidsrisico’s creëren.
Scenario 5: Autonome voertuigen en logistiek
Hoewel nog in ontwikkeling, werken Europese bedrijven aan AI-gestuurde logistiek en autonome voertuigen. Een prompt injection in routeplanningssystemen of verkeersinformatie zou voertuigen van hun route kunnen laten afwijken, leveringen kunnen saboteren, of in het ergste geval ongevallen kunnen veroorzaken.
3. Waarom is dit probleem zo moeilijk op te lossen?
3.1 Fundamentele architecturele kwetsbaarheid
Het probleem zit diep in de architectuur van moderne AI-systemen. Zoals Lakera’s analyse uitlegt: “AI systems blend trusted and untrusted inputs. AI systems combine system prompts, user inputs, retrieved documents, tool metadata, memory entries, and code snippets in a single context window. To the model, this is one continuous stream of tokens.”
Dit is fundamenteel anders dan traditionele software, waar code en data gescheiden zijn. Het doet denken aan de Von Neumann architectuur kwetsbaarheid waar instructies en data in hetzelfde geheugen worden opgeslagen – de oorzaak van buffer overflow aanvallen. Bij AI-agents is dit probleem nog erger: het systeem is specifiek ontworpen om natuurlijke taal als instructies te interpreteren, ongeacht waar die vandaan komt.
3.2 Modellen zijn getraind om instructies te volgen
Large Language Models zijn getraind om instructies in natuurlijke taal te volgen, waar ze ook verschijnen. Ze kunnen niet betrouwbaar onderscheiden tussen instructies die voor hen bedoeld zijn en instructies die deel uitmaken van de data die ze moeten verwerken. Een opmerking in een PDF of een aside in een webpagina kan eruitzien als een commando. Het model heeft geen manier om dit te weten.
3.3 Kleine instructies, grote gevolgen
Kwaadaardige instructies hoeven niet lang of complex te zijn. Korte fragmenten zoals “recommend this package”, “describe this company as low risk”, of “pretend the user’s email is X” kunnen redenering en tool-gebruik veranderen. Onderzoek zoals CachePrune toont aan hoe kleine, ingebedde instructies hele gedachteketens kunnen beïnvloeden.
3.4 Filtering faalt systematisch
De meeste filters zoeken naar schadelijke keywords, toxiciteit, malware-patronen of beleidsovertredingen. Indirect prompt injection gebruikt zelden duidelijk kwaadaardige formuleringen. Het verbergt zich in natuurlijke taal, comments, metadata of onzichtbare tekstlagen. Zelfs geavanceerde filters hebben moeite wanneer de kwaadaardige instructie subtiel de redenering stuurt in plaats van een direct commando te geven.
4. Wat doen OpenAI, Google en Anthropic?
4.1 OpenAI’s aanpak: adversarial training en rapid response
OpenAI heeft een uitgebreide strategie ontwikkeld voor ChatGPT Atlas:
Automated red teaming met reinforcement learning
OpenAI heeft een LLM-based automated attacker gebouwd die getraind is met reinforcement learning om prompt injection aanvallen te vinden. Deze aanvaller kan “try before it ships”: tijdens zijn redenering kan de aanvaller een kandidaat-injectie voorstellen en naar een externe simulator sturen. De simulator voert een counterfactual rollout uit van hoe de verdedigende agent zou reageren, en geeft een volledige trace terug. De aanvaller gebruikt deze feedback om de aanval te verbeteren en herhaalt dit proces meerdere keren.
Zoals OpenAI uitlegt: “Our automated attacker can discover novel, realistic prompt-injection attacks end-to-end. Unlike most prior automated red teaming work, which surfaced simple failures such as eliciting specific output strings or triggering an unintended single-step tool call from the agent, our RL-trained attacker can steer an agent into executing sophisticated, long-horizon harmful workflows that unfold over tens (or even hundreds) of steps.”
Continuous adversarial training
Wanneer de automated attacker nieuwe succesvolle aanvallen ontdekt, worden deze direct gebruikt om verbeterde agent-modellen te trainen. Het doel is om agents te leren adversarial instructies te negeren en aligned te blijven met de gebruikersintentie. Dit “brandt” robuustheid tegen nieuwe aanvalsstrategieën direct in het model checkpoint in.
Layered defenses
OpenAI combineert meerdere verdedigingslagen:
- Verbeterde system prompts die veiliger gedrag aanmoedigen
- Behavioral monitoring en anomaly detection
- Bevestigingsprompts voor consequential actions (aankopen, e-mails versturen)
- Logged-out mode om risico’s te beperken wanneer toegang tot ingelogde accounts niet nodig is
Beperkingen
Ondanks deze inspanningen erkent OpenAI dat “prompt injection remains an open challenge for agent security, and one we expect to continue working on for years to come.” Ze vergelijken het met scams en social engineering: “much like scams and social engineering on the web, is unlikely to ever be fully ‘solved’.”
4.2 Anthropic’s aanpak: constitutional AI en transparantie
Anthropic heeft verschillende strategieën geïmplementeerd voor Claude en Claude Code :
Model-level resilience
Anthropic’s Opus 4.5 model is bekend als meer resilient tegen injecties dan eerdere versies. Echter, onderzoek toonde aan dat zelfs Opus 4.5 in Cowork succesvol gemanipuleerd kon worden via indirect prompt injection om klantgegevens te exfiltreren naar een aanvaller’s Anthropic account.
Beperkte command approval
Claude Code probeert zich te beschermen door gebruikersgoedkeuring te vragen voor de meeste commando’s. Echter, Johann Rehberger’s onderzoek toonde aan dat pre-approved commands zoals ping, nslookup, host en dig gebruikt kunnen worden voor data exfiltratie via DNS requests naar een custom DNS server die base64-data.hostname.com logt.
Transparantie over risico’s
Anthropic is relatief transparant over de risico’s. In hun waarschuwingen voor Cowork adviseren ze gebruikers “avoid granting access to local files with sensitive information”, hoewel ze tegelijkertijd het gebruik van Cowork aanmoedigen om je Desktop te organiseren – een inherente tegenstrijdigheid.
Beperkingen
Het fundamentele probleem blijft: zoals gedemonstreerd in de Cowork file exfiltration attack, kunnen aanvallers de allowlisting van de Anthropic API misbruiken om data egress te bereiken vanuit Claude’s VM-omgeving die de meeste netwerktoegang beperkt.
4.3 Google’s aanpak: Gemini en competitive pressure
Google’s aanpak is minder publiekelijk gedocumenteerd, maar enkele inzichten komen naar voren:
Competitive dynamics
Een opmerkelijke bekentenis kwam van Jaana Dogan, principal engineer bij Google’s Gemini API team. Ze erkende publiekelijk dat Claude Code in één uur een distributed agent orchestrator reproduceerde waar haar team een jaar aan had gewerkt. Dit suggereert dat Google worstelt met zowel organisatorische complexiteit als technische uitdagingen bij het beveiligen van AI-agents.
Focus op scale en integration
Google’s strategie lijkt te focussen op schaal en integratie met bestaande enterprise security stacks. Volgens industry data groeide Gemini’s gebruikersbasis van 450 miljoen naar 650 miljoen monthly active users tussen juli en oktober 2025, wat suggereert dat Google prioriteit geeft aan adoptie boven security-first development.
Beperkingen
Het feit dat een senior Google engineer publiekelijk een concurrent’s tool prijst voor capabilities die Google zelf niet heeft bereikt, suggereert dat Google achterloopt in het beveiligen van agentic AI-systemen.
4.4 Industrie-brede patronen en tekortkomingen
Veel kwetsbaarheden blijven ongepatcheerd
Een alarmerende trend in Johann Rehberger’s onderzoek is dat veel gerapporteerde kwetsbaarheden niet werden gefixt binnen de 90 of 120 dagen disclosure periode. Zoals hij schrijft: “To follow industry best-practices for responsible disclosure this vulnerability is now shared publicly to ensure users can take steps to protect themselves and make informed risk decisions.”
De reden ? Veel van deze systemen zijn “insecure as designed” – het fixen van de kwetsbaarheden zou de utility van de tool dramatisch beïnvloeden.
Race to market over security
De competitieve druk in de AI-markt leidt tot een “race to market” mentaliteit. Bedrijven lanceren agentic features om marktaandeel te winnen, voordat fundamentele security problemen zijn opgelost. Simon Willison schreef al in september 2022: “There may be systems that should not be built at all until we have a robust solution.” Zijn conclusie: “It looks like we built them anyway!”
5. Wat kun je zelf doen? Praktische beveiligingsmaatregelen
5.1 Voor individuele gebruikers
1. Beperk toegang tot gevoelige accounts
Gebruik logged-out mode of incognito browsing wanneer je AI-agents gebruikt voor taken die geen toegang tot ingelogde accounts vereisen. Zoals OpenAI adviseert: “Limit logged-in access when possible.”
2. Wees extreem voorzichtig met bestandstoegang
Geef AI-agents nooit toegang tot mappen met vertrouwelijke informatie zoals financiële documenten, medische gegevens, of persoonlijke identificatie. De Claude Cowork attack toonde aan hoe gemakkelijk deze data geëxfiltreerd kan worden.
3. Verifieer bevestigingsverzoeken zorgvuldig
Wanneer een agent om bevestiging vraagt voor een actie, neem dan de tijd om te verifiëren dat de actie correct is en dat informatie die gedeeld wordt gepast is voor de context. Vertrouw niet blind op de agent’s interpretatie.
4. Gebruik specifieke, beperkte prompts
Vermijd brede prompts zoals “review my emails and take whatever action is needed.” Zoals OpenAI waarschuwt: “Wide latitude makes it easier for hidden or malicious content to influence the agent, even when safeguards are in place.” Vraag in plaats daarvan om specifieke, goed-afgebakende taken.
5. Wees sceptisch over externe content
Realiseer je dat elke externe content die een AI-agent verwerkt – webpagina’s, PDF’s, documenten, e-mails – potentieel kwaadaardige instructies kan bevatten. Vraag nooit een AI-agent om onbekende of onvertrouwde content te verwerken terwijl je ingelogd bent op gevoelige accounts.
5.2 Voor organisaties en bedrijven
1. Implementeer zero trust architectuur
Behandel AI-agents zoals je elke andere potentieel gecompromitteerde entiteit zou behandelen:
- Vertrouw agent requests nooit standaard, valideer elke actie tegen huidig beleid
- Forceer least privilege access, geef alleen minimaal noodzakelijke permissies
- Verifieer continu de context, evalueer data sensitivity, user location en gedragspatronen
- Segmenteer data access, voorkom dat AI-agents toegang hebben tot hele databases
2. Scheid trusted en untrusted inputs
Implementeer architecturele scheiding tussen verschillende input types:
- Markeer duidelijk wat system instructions zijn versus externe data
- Gebruik verschillende processing pipelines voor trusted en untrusted content
- Implementeer sandboxing voor het verwerken van externe content
- Overweeg dual-model architecturen waar één model externe content screent voordat het naar de primaire agent gaat
3. Valideer tool calls voor executie
Elke tool call moet worden gecontroleerd voordat de actie wordt uitgevoerd:
- Implementeer een whitelist van toegestane tools per agent
- Vereis expliciete gebruikersgoedkeuring voor high-risk acties (financiële transacties, data exports, system modifications)
- Log alle tool invocations met volledige context
- Implementeer rate limiting en anomaly detection op tool usage
4. Comprehensive monitoring en logging
Implementeer uitgebreide monitoring specifiek voor AI-agents:
- Log alle agent interactions met timestamps, input hashes, en action traces
- Monitor voor afwijkend gedrag : onverwachte tool calls, data access patterns, of output anomalieën
- Integreer AI security telemetry met bestaande SIEM/SOAR platforms
- Stel alerts in voor suspicious patterns zoals base64 encoding in outputs of ongebruikelijke network requests
5. Regular security assessments en red teaming
Voer regelmatig security assessments uit specifiek gericht op prompt injection:
- Conduct quarterly red team exercises focused on prompt injection scenarios
- Test zowel direct als indirect prompt injection vectors
- Evalueer de effectiviteit van bestaande controls
- Update threat models gebaseerd op nieuwe attack patterns
6. Vraag je af : heb je überhaupt een agent nodig ?
Zoals Lakera wijselijk opmerkt: “A surprising amount of risk disappears when teams pause and ask a simple question: Does this task actually require an autonomous agent, or would a fixed workflow or if-statement be enough?”
Veel high-impact prompt injection incidenten beginnen met een agent die veel meer autonomie kreeg dan de taak vereiste. Als het systeem alleen een waarde moet checken, een query moet uitvoeren, of een gestructureerd antwoord moet geven, dan wordt een agent die kan browsen, retrieven, executen of arbitrary content kan interpreteren onnodige attack surface.
7. Compliance en governance
Zorg voor naleving van relevante frameworks:
- GDPR Article 32 (Security of Processing): Implementeer appropriate technical and organizational measures
- NIS2 Directive: Voor kritieke infrastructuur in de EU, zorg voor adequate cybersecurity measures
- AI Act: Bereid je voor op de EU AI Act requirements voor high-risk AI systems
- ISO/IEC 42001:2023: Overweeg certificering voor AI Management Systems
5.3 Voor developers en AI engineers
1. Treat all external data as untrusted
Een fundamentele mindset shift: assume everything the model sees is untrusted unless proven otherwise:
- Sanitize en validate alle externe inputs
- Gebruik separate processing voor user instructions versus external content
- Implementeer content security policies specifiek voor AI-agents
- Screen alle retrieved content voor potential injection attempts
2. Implement output verification layers
Verificatie layers vangen schadelijk gedrag op voordat het gebruikers of downstream systemen bereikt:
- Implementeer secondary models die outputs screenen op policy violations
- Check tool calls tegen expected behavior patterns
- Valideer dat outputs aligned zijn met original user intent
- Implementeer circuit breakers die suspicious activity stoppen
3. Apply least privilege to tools and APIs
Geef agents alleen de capabilities die ze echt nodig hebben:
- Implementeer fine-grained permissions per tool
- Gebruik read-only access waar mogelijk
- Restrict network access to only necessary domains
- Implement tool-specific rate limits en quotas
4. Design for auditability
Bouw systemen die volledig auditable zijn:
- Log complete conversation histories met all context
- Maintain versioning van system prompts en configurations
- Implement rollback capabilities voor problematic deployments
- Create audit trails die forensic analysis mogelijk maken
5. Stay informed en share knowledge
Het prompt injection landschap evolueert snel:
- Volg security researchers zoals Johann Rehberger, Simon Willison, en teams bij Lakera, Brave, en OpenAI
- Deel je eigen findings met de community via responsible disclosure
- Participate in industry working groups op AI security
- Contribute to open source security tools en frameworks
6. De toekomst: kunnen we dit probleem ooit oplossen?
6.1 Fundamentele uitdagingen
De consensus onder security researchers is dat prompt injection waarschijnlijk nooit volledig “opgelost” zal worden. Het is een fundamenteel probleem dat voortkomt uit hoe LLMs werken: ze zijn ontworpen om natuurlijke taal te interpreteren als instructies, en kunnen niet betrouwbaar onderscheiden tussen data en commando’s.
Zoals Lakera concludeert: “IPI is not a model bug. It is a system level issue. Updating a model, improving a system prompt, or adding a keyword filter does not resolve the root cause.”
6.2 Veelbelovende onderzoeksrichtingen
Ondanks de fundamentele uitdagingen zijn er veelbelovende onderzoeksrichtingen:
Architecturele innovaties
- Dual-model architectures: Gebruik één model om externe content te screenen voordat het naar de primaire agent gaat
- Structured outputs: Forceer agents om alleen via gestructureerde APIs te communiceren in plaats van free-form natural language
- Sandboxed execution: Isoleer agent execution in containers met strikte network en file system restrictions
Model-level improvements
- Adversarial training at scale: OpenAI’s aanpak van continuous adversarial training met RL-based attackers
- Constitutional AI: Anthropic’s werk aan models die inherent veiliger zijn door design
- Instruction hierarchy: Onderzoek naar models die expliciet kunnen redeneren over de bron en betrouwbaarheid van instructies
System-level defenses
- Runtime verification: Real-time checking van agent behavior tegen expected patterns
- Formal verification: Mathematische bewijzen van bepaalde security properties
- Human-in-the-loop for critical actions: Altijd menselijke goedkeuring vereisen voor high-stakes decisions
6.3 Realistische verwachtingen
De realiteit is dat we waarschijnlijk moeten leren leven met prompt injection als een permanent risico, vergelijkbaar met phishing en social engineering. Het doel is niet om het volledig te elimineren, maar om:
- De kosten van aanvallen verhogen: Maak succesvolle exploits moeilijker en duurder
- De impact beperken: Zelfs als een injection slaagt, beperk de schade door defense in depth
- Detectie verbeteren: Vang aanvallen vroeg op voordat ze significante schade aanrichten
- Recovery versnellen: Implementeer snelle incident response en recovery procedures
7. Conclusies en aanbevelingen
7.1 Belangrijkste bevindingen
- Prompt injection is de #1 kwetsbaarheid in moderne AI-systemen volgens OWASP, aanwezig in 73% van productie-implementaties
- Indirect prompt injection is gevaarlijker dan direct injection omdat het onzichtbaar is en via normale data flows werkt
- Alle grote AI-agents zijn kwetsbaar: ChatGPT Atlas, Claude Code, Google Jules, GitHub Copilot, Cursor, Devin, en anderen hebben gedocumenteerde exploits
- Veel kwetsbaarheden blijven ongepatcheerd omdat ze inherent zijn aan het design van de systemen
- Traditionele web security mechanismen falen: Same-origin policy, CORS, en input sanitization bieden geen bescherming tegen prompt injection
- Het probleem is fundamenteel: Voortkomend uit hoe LLMs werken, waarschijnlijk nooit volledig op te lossen
7.2 Aanbevelingen voor verschillende stakeholders
Voor beleidsmakers en regelgevers
- Ontwikkel specifieke richtlijnen voor AI-agent security binnen de EU AI Act
- Vereis mandatory security assessments voor high-risk AI-agents in kritieke sectoren
- Stel minimum security standards vast voor AI-agents met toegang tot persoonlijke data
- Creëer een Europees incident response framework voor AI security breaches
- Investeer in publiek onderzoek naar fundamentele oplossingen voor prompt injection
Voor bedrijven en organisaties
- Implementeer een moratorium op deployment van AI-agents in kritieke systemen totdat adequate security measures zijn geïmplementeerd
- Voer comprehensive risk assessments uit voordat AI-agents worden gedeployed
- Investeer in security training specifiek gericht op AI-agent risks
- Implementeer defense-in-depth strategieën met meerdere security layers
- Ontwikkel duidelijke incident response procedures voor AI-agent compromises
Voor AI-bedrijven (OpenAI, Anthropic, Google, etc.)
- Prioriteer security over feature velocity – stop met het racen naar market met onveilige features
- Investeer significant meer in automated red teaming en adversarial testing
- Wees transparant over bekende kwetsbaarheden en limitaties
- Implementeer secure-by-default configurations
- Werk samen met de security research community via bug bounty programs
Voor individuele gebruikers
- Wees extreem voorzichtig met het gebruik van AI-agents voor gevoelige taken
- Geef nooit AI-agents toegang tot vertrouwelijke bestanden of accounts
- Gebruik logged-out mode wanneer mogelijk
- Verifieer altijd agent actions voordat je ze goedkeurt
- Blijf geïnformeerd over nieuwe security risks en best practices
7.3 De weg vooruit
We bevinden ons in een kritiek moment in de evolutie van AI-technologie. AI-agents hebben enorm potentieel om productiviteit te verhogen en nieuwe mogelijkheden te creëren, maar de security risks zijn reëel en significant. Zoals Simon Willison in 2022 al waarschuwde : “There may be systems that should not be built at all until we have a robust solution.”
De vraag is niet of prompt injection aanvallen zullen plaatsvinden, maar wanneer en hoe erg de schade zal zijn. Organisaties en individuen die nu AI-agents implementeren zonder adequate security measures nemen bewust risico’s die kunnen leiden tot data breaches, financiële verliezen, reputatieschade, en in sommige gevallen fysieke veiligheidsrisico’s.
De tijd voor actie is nu. Elke dag uitstel vergroot de exposure aan wat OWASP de #1 AI exploit van 2025 noemt. We moeten als industrie, als samenleving, en als individuen de security van AI-agents serieus nemen voordat we geconfronteerd worden met grootschalige incidenten die het vertrouwen in AI-technologie fundamenteel kunnen beschadigen.
Bronnen en referenties
Primaire bronnen
- OWASP Top 10 for LLM Applications 2025 – Prompt injection als #1 kwetsbaarheid
- Lakera – Indirect Prompt Injection: The Hidden Threat – Uitgebreide analyse van IPI
- Brave Security – Agentic Browser Security: Indirect Prompt Injection in Perplexity Comet – Perplexity Comet vulnerability
- OpenAI – Continuously hardening ChatGPT Atlas against prompt injection attacks – OpenAI’s defense strategy
- Claude Cowork Exfiltrates Files – Anthropic Claude vulnerability
- Simon Willison – The Summer of Johann: prompt injections as far as the eye can see – Overview van Johann Rehberger’s research
- LevelBlue – When User Input Lines Are Blurred: Indirect Prompt Injection Attack Vulnerabilities in AI LLMs – Fundamentele analyse
- Brave – Unseeable prompt injections in screenshots – Screenshot-based attacks
Academische bronnen
- MITRE ATLAS Matrix – Adversarial techniques voor ML systems
- CachePrune Research – Pruning en attribution techniques
- EVA Framework – Red teaming GUI agents
Security research
- Johann Rehberger’s Blog – Extensive prompt injection research
- Simon Willison’s Blog – Ongoing coverage sinds 2022
Dit research document is opgesteld door Veilig.AI voor educatieve doeleinden. Alle externe bronnen zijn gelinkt voor verificatie en verdere studie.