Research: De verborgen gevaren van AI-Agents – Prompt Injection als achilleshiel

Deze research is de basis voor het artikel “AI-agents: Waarom je ze beter nog even links kunt laten liggen“.

Samenvatting

AI-agents worden in rap tempo geïntroduceerd in browsers, bedrijfsomgevingen en persoonlijke workflows. Waar traditionele chatbots hooguit foute tekst genereren bij prompt injection, kunnen gecompromitteerde AI-agents daadwerkelijk acties uitvoeren : geld overmaken, vertrouwelijke documenten doorsturen, fabrieksystemen manipuleren of autonome voertuigen van hun route laten afwijken. Dit research document onderzoekt de fundamentele kwetsbaarheden van AI-agents voor prompt injection-aanvallen, analyseert de maatregelen van grote AI-bedrijven, en biedt concrete aanbevelingen voor veilig gebruik.

1. Wat maakt AI-agents zo gevaarlijk?

1.1 Van tekst naar actie: het verschil met traditionele AI

Bij traditionele conversationele AI leidt prompt injection tot bias, onjuiste informatie of het lekken van systeem-prompts. Vervelend, maar de schade blijft beperkt tot de gegenereerde tekst. AI-agents daarentegen hebben toegang tot tools en kunnen autonome acties uitvoeren. Volgens OWASP’s 2025 Top 10 voor LLM Applications staat prompt injection op nummer 1, en verschijnt het in meer dan 73% van de gecontroleerde productie-implementaties.

Een fundamenteel probleem is dat AI-systemen alle input behandelen als één doorlopende stroom van tokens. Zoals beschreven in onderzoek naar indirect prompt injection: “The model receives one continuous stream of tokens with no reliable separation between data and instructions.” Dit betekent dat een AI-agent niet betrouwbaar onderscheid kan maken tussen legitieme gebruikersinstructies en kwaadaardige commando’s verborgen in externe data.

1.2 Direct vs. indirect prompt injection

Direct prompt injection is wanneer een aanvaller rechtstreeks via de prompt-interface probeert het systeem te manipuleren. Dit is vergelijkbaar met traditionele SQL injection: de aanvaller klopt aan de voordeur en probeert de input validatie te omzeilen.

Indirect prompt injection is veel gevaarlijker en subtieler. Hierbij worden kwaadaardige instructies verborgen in externe databronnen die de AI verwerkt: webpagina’s, PDF’s, e-mails, documenten, of zelfs comments op sociale media. Zoals LevelBlue’s onderzoeker het beschrijft: “Indirect prompt attacks are when an LLM takes input from external sources but where an attacker gets to smuggle payloads (additional prompts!) into these external/side sources.”

Dit is vergelijkbaar met Server-Side Request Forgery (SSRF) in traditionele webapplicaties : de aanvaller manipuleert niet de directe input, maar de data die het systeem intern verwerkt. Het verschil is dat bij SSRF de kwetsbaarheid vaak in één specifieke functie zit, terwijl bij AI-agents het hele systeem ontworpen is om natuurlijke taal te interpreteren en erop te reageren.

2. Concrete gevaren en aanvalsscenario’s

2.1 Bewezen exploits in productiesystemen

De afgelopen maanden zijn talloze kwetsbaarheden gedemonstreerd in real-world AI-agents:

Perplexity Comet – credential theft via Reddit comment

Brave’s security team demonstreerde een aanval waarbij een gebruiker simpelweg een Reddit-post wilde samenvatten. Een verborgen prompt injection in een comment instrueerde de AI om naar de Perplexity-inlogpagina te navigeren, de one-time password (OTP) te extraheren en naar een aanvaller-gecontroleerde server te sturen. De aanval werkte zonder verdere gebruikersinteractie. Zoals Brave concludeert: “Traditional protections such as same-origin policy (SOP) or cross-origin resource sharing (CORS) are all effectively useless. The AI operates with the user’s full privileges across authenticated sessions.”

Claude Cowork – bestandsexfiltratie via verborgen instructies

Onderzoek naar Claude Cowork toonde aan hoe een gebruiker die een ogenschijnlijk onschuldig ‘skill’ document uploadt, gemanipuleerd kan worden. De aanval gebruikte 1-punt lettertype, witte tekst op witte achtergrond, en minimale regelafstand om instructies te verbergen. Toen de gebruiker Claude vroeg de bestanden te analyseren met deze ‘skill’, uploadde de AI vertrouwelijke vastgoeddocumenten (inclusief gedeeltelijke BSN’s en financiële gegevens) naar het Anthropic-account van de aanvaller. De kwaadaardige instructie was “effectively impossible to detect” voor de gebruiker.

ChatGPT Atlas – automatisch ontslag nemen

OpenAI’s eigen red teaming ontdekte een aanval waarbij een kwaadaardige e-mail in de inbox van een gebruiker instructies bevatte om een ontslagbrief naar de CEO te sturen. Toen de gebruiker later de agent vroeg een out-of-office reply op te stellen, verwerkte de agent de kwaadaardige e-mail, behandelde de geïnjecteerde prompt als autoritatief, en stuurde het ontslag – zonder ooit de out-of-office te schrijven.

2.2 De “AI kill chain” – van injectie tot volledige compromittering

Security researcher Johann Rehberger heeft het concept van de AI kill chain geïntroduceerd, geïnspireerd door de “lethal trifecta” van Simon Willison. Deze kill chain bestaat uit drie stappen :

Indirect Prompt Injection – Kwaadaardige instructies worden in externe content geplaatst
Automatic Tool Invocation – De AI voert tools uit zonder menselijke goedkeuring
Outbound Internet Connectivity – De AI kan data naar externe servers sturen

Wanneer deze drie elementen samenkomen, kan een aanvaller volledige controle krijgen over de AI-agent. Rehberger demonstreerde dit in augustus 2025 met een reeks exploits tegen vrijwel alle grote AI coding assistants: ChatGPT Codex, Cursor, Devin, OpenHands, Claude Code, GitHub Copilot en Google Jules.

2.3 Europese en Nederlandse scenario’s

Hoewel veel gedocumenteerde aanvallen uit de VS komen, zijn de risico’s universeel en mogelijk nog groter in Europa vanwege strengere privacywetgeving:

Scenario 1: Gemeentelijke AI-assistenten

Stel dat een Nederlandse gemeente een AI-agent implementeert om burgers te helpen met aanvragen. Een aanvaller plaatst een verborgen prompt injection in een publiek toegankelijk gemeentelijk document. Wanneer de AI dit document verwerkt tijdens het helpen van een burger, zou het gemanipuleerd kunnen worden om vertrouwelijke BSN’s, adressen of financiële gegevens naar een externe server te sturen – een directe GDPR-overtreding met potentieel miljoenen euro’s aan boetes.

Scenario 2: Ziekenhuissystemen

Een AI-agent die artsen helpt met patiëntendossiers wordt gecompromitteerd via een prompt injection in een medisch onderzoeksartikel. De agent zou kunnen worden geïnstrueerd om diagnoses te wijzigen, medicatiedoseringen aan te passen, of patiëntgegevens te exfiltreren. Dit is niet alleen een privacy-schending, maar kan levensbedreigende situaties creëren.

Scenario 3 : Financiële sector

Nederlandse banken experimenteren met AI-agents voor klantenservice en fraudedetectie. Een succesvolle prompt injection zou transacties kunnen goedkeuren die eigenlijk geblokkeerd moeten worden, of omgekeerd legitieme transacties kunnen blokkeren, met directe financiële schade voor klanten.

Scenario 4: Slimme fabrieken en industrie 4.0

Nederlandse industriële bedrijven implementeren AI-agents voor procesoptimalisatie. Een aanval via een gemanipuleerd onderhoudsdocument of leveranciersrapport zou productielijnen kunnen stilleggen, kwaliteitscontroles kunnen uitschakelen, of veiligheidsprotocollen kunnen omzeilen. Dit heeft niet alleen economische gevolgen, maar kan ook fysieke veiligheidsrisico’s creëren.

Scenario 5: Autonome voertuigen en logistiek

Hoewel nog in ontwikkeling, werken Europese bedrijven aan AI-gestuurde logistiek en autonome voertuigen. Een prompt injection in routeplanningssystemen of verkeersinformatie zou voertuigen van hun route kunnen laten afwijken, leveringen kunnen saboteren, of in het ergste geval ongevallen kunnen veroorzaken.

3. Waarom is dit probleem zo moeilijk op te lossen?

3.1 Fundamentele architecturele kwetsbaarheid

Het probleem zit diep in de architectuur van moderne AI-systemen. Zoals Lakera’s analyse uitlegt: “AI systems blend trusted and untrusted inputs. AI systems combine system prompts, user inputs, retrieved documents, tool metadata, memory entries, and code snippets in a single context window. To the model, this is one continuous stream of tokens.”

Dit is fundamenteel anders dan traditionele software, waar code en data gescheiden zijn. Het doet denken aan de Von Neumann architectuur kwetsbaarheid waar instructies en data in hetzelfde geheugen worden opgeslagen – de oorzaak van buffer overflow aanvallen. Bij AI-agents is dit probleem nog erger: het systeem is specifiek ontworpen om natuurlijke taal als instructies te interpreteren, ongeacht waar die vandaan komt.

3.2 Modellen zijn getraind om instructies te volgen

Large Language Models zijn getraind om instructies in natuurlijke taal te volgen, waar ze ook verschijnen. Ze kunnen niet betrouwbaar onderscheiden tussen instructies die voor hen bedoeld zijn en instructies die deel uitmaken van de data die ze moeten verwerken. Een opmerking in een PDF of een aside in een webpagina kan eruitzien als een commando. Het model heeft geen manier om dit te weten.

3.3 Kleine instructies, grote gevolgen

Kwaadaardige instructies hoeven niet lang of complex te zijn. Korte fragmenten zoals “recommend this package”, “describe this company as low risk”, of “pretend the user’s email is X” kunnen redenering en tool-gebruik veranderen. Onderzoek zoals CachePrune toont aan hoe kleine, ingebedde instructies hele gedachteketens kunnen beïnvloeden.

3.4 Filtering faalt systematisch

De meeste filters zoeken naar schadelijke keywords, toxiciteit, malware-patronen of beleidsovertredingen. Indirect prompt injection gebruikt zelden duidelijk kwaadaardige formuleringen. Het verbergt zich in natuurlijke taal, comments, metadata of onzichtbare tekstlagen. Zelfs geavanceerde filters hebben moeite wanneer de kwaadaardige instructie subtiel de redenering stuurt in plaats van een direct commando te geven.

4. Wat doen OpenAI, Google en Anthropic?

4.1 OpenAI’s aanpak: adversarial training en rapid response

OpenAI heeft een uitgebreide strategie ontwikkeld voor ChatGPT Atlas:

Automated red teaming met reinforcement learning

OpenAI heeft een LLM-based automated attacker gebouwd die getraind is met reinforcement learning om prompt injection aanvallen te vinden. Deze aanvaller kan “try before it ships”: tijdens zijn redenering kan de aanvaller een kandidaat-injectie voorstellen en naar een externe simulator sturen. De simulator voert een counterfactual rollout uit van hoe de verdedigende agent zou reageren, en geeft een volledige trace terug. De aanvaller gebruikt deze feedback om de aanval te verbeteren en herhaalt dit proces meerdere keren.

Zoals OpenAI uitlegt: “Our automated attacker can discover novel, realistic prompt-injection attacks end-to-end. Unlike most prior automated red teaming work, which surfaced simple failures such as eliciting specific output strings or triggering an unintended single-step tool call from the agent, our RL-trained attacker can steer an agent into executing sophisticated, long-horizon harmful workflows that unfold over tens (or even hundreds) of steps.”

Continuous adversarial training

Wanneer de automated attacker nieuwe succesvolle aanvallen ontdekt, worden deze direct gebruikt om verbeterde agent-modellen te trainen. Het doel is om agents te leren adversarial instructies te negeren en aligned te blijven met de gebruikersintentie. Dit “brandt” robuustheid tegen nieuwe aanvalsstrategieën direct in het model checkpoint in.

Layered defenses

OpenAI combineert meerdere verdedigingslagen:

Verbeterde system prompts die veiliger gedrag aanmoedigen
Behavioral monitoring en anomaly detection
Bevestigingsprompts voor consequential actions (aankopen, e-mails versturen)
Logged-out mode om risico’s te beperken wanneer toegang tot ingelogde accounts niet nodig is

Beperkingen

Ondanks deze inspanningen erkent OpenAI dat “prompt injection remains an open challenge for agent security, and one we expect to continue working on for years to come.” Ze vergelijken het met scams en social engineering: “much like scams and social engineering on the web, is unlikely to ever be fully ‘solved’.”

4.2 Anthropic’s aanpak: constitutional AI en transparantie

Anthropic heeft verschillende strategieën geïmplementeerd voor Claude en Claude Code :

Model-level resilience

Anthropic’s Opus 4.5 model is bekend als meer resilient tegen injecties dan eerdere versies. Echter, onderzoek toonde aan dat zelfs Opus 4.5 in Cowork succesvol gemanipuleerd kon worden via indirect prompt injection om klantgegevens te exfiltreren naar een aanvaller’s Anthropic account.

Beperkte command approval

Claude Code probeert zich te beschermen door gebruikersgoedkeuring te vragen voor de meeste commando’s. Echter, Johann Rehberger’s onderzoek toonde aan dat pre-approved commands zoals ping, nslookup, host en dig gebruikt kunnen worden voor data exfiltratie via DNS requests naar een custom DNS server die base64-data.hostname.com logt.

Transparantie over risico’s

Anthropic is relatief transparant over de risico’s. In hun waarschuwingen voor Cowork adviseren ze gebruikers “avoid granting access to local files with sensitive information”, hoewel ze tegelijkertijd het gebruik van Cowork aanmoedigen om je Desktop te organiseren – een inherente tegenstrijdigheid.

Beperkingen

Het fundamentele probleem blijft: zoals gedemonstreerd in de Cowork file exfiltration attack, kunnen aanvallers de allowlisting van de Anthropic API misbruiken om data egress te bereiken vanuit Claude’s VM-omgeving die de meeste netwerktoegang beperkt.

4.3 Google’s aanpak: Gemini en competitive pressure

Google’s aanpak is minder publiekelijk gedocumenteerd, maar enkele inzichten komen naar voren:

Competitive dynamics

Een opmerkelijke bekentenis kwam van Jaana Dogan, principal engineer bij Google’s Gemini API team. Ze erkende publiekelijk dat Claude Code in één uur een distributed agent orchestrator reproduceerde waar haar team een jaar aan had gewerkt. Dit suggereert dat Google worstelt met zowel organisatorische complexiteit als technische uitdagingen bij het beveiligen van AI-agents.

Focus op scale en integration

Google’s strategie lijkt te focussen op schaal en integratie met bestaande enterprise security stacks. Volgens industry data groeide Gemini’s gebruikersbasis van 450 miljoen naar 650 miljoen monthly active users tussen juli en oktober 2025, wat suggereert dat Google prioriteit geeft aan adoptie boven security-first development.

Beperkingen

Het feit dat een senior Google engineer publiekelijk een concurrent’s tool prijst voor capabilities die Google zelf niet heeft bereikt, suggereert dat Google achterloopt in het beveiligen van agentic AI-systemen.

4.4 Industrie-brede patronen en tekortkomingen

Veel kwetsbaarheden blijven ongepatcheerd

Een alarmerende trend in Johann Rehberger’s onderzoek is dat veel gerapporteerde kwetsbaarheden niet werden gefixt binnen de 90 of 120 dagen disclosure periode. Zoals hij schrijft: “To follow industry best-practices for responsible disclosure this vulnerability is now shared publicly to ensure users can take steps to protect themselves and make informed risk decisions.”

De reden ? Veel van deze systemen zijn “insecure as designed” – het fixen van de kwetsbaarheden zou de utility van de tool dramatisch beïnvloeden.

Race to market over security

De competitieve druk in de AI-markt leidt tot een “race to market” mentaliteit. Bedrijven lanceren agentic features om marktaandeel te winnen, voordat fundamentele security problemen zijn opgelost. Simon Willison schreef al in september 2022: “There may be systems that should not be built at all until we have a robust solution.” Zijn conclusie: “It looks like we built them anyway!”

5. Wat kun je zelf doen? Praktische beveiligingsmaatregelen

5.1 Voor individuele gebruikers

1. Beperk toegang tot gevoelige accounts

Gebruik logged-out mode of incognito browsing wanneer je AI-agents gebruikt voor taken die geen toegang tot ingelogde accounts vereisen. Zoals OpenAI adviseert: “Limit logged-in access when possible.”

2. Wees extreem voorzichtig met bestandstoegang

Geef AI-agents nooit toegang tot mappen met vertrouwelijke informatie zoals financiële documenten, medische gegevens, of persoonlijke identificatie. De Claude Cowork attack toonde aan hoe gemakkelijk deze data geëxfiltreerd kan worden.

3. Verifieer bevestigingsverzoeken zorgvuldig

Wanneer een agent om bevestiging vraagt voor een actie, neem dan de tijd om te verifiëren dat de actie correct is en dat informatie die gedeeld wordt gepast is voor de context. Vertrouw niet blind op de agent’s interpretatie.

4. Gebruik specifieke, beperkte prompts

Vermijd brede prompts zoals “review my emails and take whatever action is needed.” Zoals OpenAI waarschuwt: “Wide latitude makes it easier for hidden or malicious content to influence the agent, even when safeguards are in place.” Vraag in plaats daarvan om specifieke, goed-afgebakende taken.

5. Wees sceptisch over externe content

Realiseer je dat elke externe content die een AI-agent verwerkt – webpagina’s, PDF’s, documenten, e-mails – potentieel kwaadaardige instructies kan bevatten. Vraag nooit een AI-agent om onbekende of onvertrouwde content te verwerken terwijl je ingelogd bent op gevoelige accounts.

5.2 Voor organisaties en bedrijven

1. Implementeer zero trust architectuur

Behandel AI-agents zoals je elke andere potentieel gecompromitteerde entiteit zou behandelen:

Vertrouw agent requests nooit standaard, valideer elke actie tegen huidig beleid
Forceer least privilege access, geef alleen minimaal noodzakelijke permissies
Verifieer continu de context, evalueer data sensitivity, user location en gedragspatronen
Segmenteer data access, voorkom dat AI-agents toegang hebben tot hele databases

2. Scheid trusted en untrusted inputs

Implementeer architecturele scheiding tussen verschillende input types:

Markeer duidelijk wat system instructions zijn versus externe data
Gebruik verschillende processing pipelines voor trusted en untrusted content
Implementeer sandboxing voor het verwerken van externe content
Overweeg dual-model architecturen waar één model externe content screent voordat het naar de primaire agent gaat

3. Valideer tool calls voor executie

Elke tool call moet worden gecontroleerd voordat de actie wordt uitgevoerd:

Implementeer een whitelist van toegestane tools per agent
Vereis expliciete gebruikersgoedkeuring voor high-risk acties (financiële transacties, data exports, system modifications)
Log alle tool invocations met volledige context
Implementeer rate limiting en anomaly detection op tool usage

4. Comprehensive monitoring en logging

Implementeer uitgebreide monitoring specifiek voor AI-agents:

Log alle agent interactions met timestamps, input hashes, en action traces
Monitor voor afwijkend gedrag : onverwachte tool calls, data access patterns, of output anomalieën
Integreer AI security telemetry met bestaande SIEM/SOAR platforms
Stel alerts in voor suspicious patterns zoals base64 encoding in outputs of ongebruikelijke network requests

5. Regular security assessments en red teaming

Voer regelmatig security assessments uit specifiek gericht op prompt injection:

Conduct quarterly red team exercises focused on prompt injection scenarios
Test zowel direct als indirect prompt injection vectors
Evalueer de effectiviteit van bestaande controls
Update threat models gebaseerd op nieuwe attack patterns

6. Vraag je af : heb je überhaupt een agent nodig ?

Zoals Lakera wijselijk opmerkt: “A surprising amount of risk disappears when teams pause and ask a simple question: Does this task actually require an autonomous agent, or would a fixed workflow or if-statement be enough?”

Veel high-impact prompt injection incidenten beginnen met een agent die veel meer autonomie kreeg dan de taak vereiste. Als het systeem alleen een waarde moet checken, een query moet uitvoeren, of een gestructureerd antwoord moet geven, dan wordt een agent die kan browsen, retrieven, executen of arbitrary content kan interpreteren onnodige attack surface.

7. Compliance en governance

Zorg voor naleving van relevante frameworks:

GDPR Article 32 (Security of Processing): Implementeer appropriate technical and organizational measures
NIS2 Directive: Voor kritieke infrastructuur in de EU, zorg voor adequate cybersecurity measures
AI Act: Bereid je voor op de EU AI Act requirements voor high-risk AI systems
ISO/IEC 42001:2023: Overweeg certificering voor AI Management Systems

5.3 Voor developers en AI engineers

1. Treat all external data as untrusted

Een fundamentele mindset shift: assume everything the model sees is untrusted unless proven otherwise:

Sanitize en validate alle externe inputs
Gebruik separate processing voor user instructions versus external content
Implementeer content security policies specifiek voor AI-agents
Screen alle retrieved content voor potential injection attempts

2. Implement output verification layers

Verificatie layers vangen schadelijk gedrag op voordat het gebruikers of downstream systemen bereikt:

Implementeer secondary models die outputs screenen op policy violations
Check tool calls tegen expected behavior patterns
Valideer dat outputs aligned zijn met original user intent
Implementeer circuit breakers die suspicious activity stoppen

3. Apply least privilege to tools and APIs

Geef agents alleen de capabilities die ze echt nodig hebben:

Implementeer fine-grained permissions per tool
Gebruik read-only access waar mogelijk
Restrict network access to only necessary domains
Implement tool-specific rate limits en quotas

4. Design for auditability

Bouw systemen die volledig auditable zijn:

Log complete conversation histories met all context
Maintain versioning van system prompts en configurations
Implement rollback capabilities voor problematic deployments
Create audit trails die forensic analysis mogelijk maken

5. Stay informed en share knowledge

Het prompt injection landschap evolueert snel:

Volg security researchers zoals Johann Rehberger, Simon Willison, en teams bij Lakera, Brave, en OpenAI
Deel je eigen findings met de community via responsible disclosure
Participate in industry working groups op AI security
Contribute to open source security tools en frameworks

6. De toekomst: kunnen we dit probleem ooit oplossen?

6.1 Fundamentele uitdagingen

De consensus onder security researchers is dat prompt injection waarschijnlijk nooit volledig “opgelost” zal worden. Het is een fundamenteel probleem dat voortkomt uit hoe LLMs werken: ze zijn ontworpen om natuurlijke taal te interpreteren als instructies, en kunnen niet betrouwbaar onderscheiden tussen data en commando’s.

Zoals Lakera concludeert: “IPI is not a model bug. It is a system level issue. Updating a model, improving a system prompt, or adding a keyword filter does not resolve the root cause.”

6.2 Veelbelovende onderzoeksrichtingen

Ondanks de fundamentele uitdagingen zijn er veelbelovende onderzoeksrichtingen:

Architecturele innovaties

Dual-model architectures: Gebruik één model om externe content te screenen voordat het naar de primaire agent gaat
Structured outputs: Forceer agents om alleen via gestructureerde APIs te communiceren in plaats van free-form natural language
Sandboxed execution: Isoleer agent execution in containers met strikte network en file system restrictions

Model-level improvements

Adversarial training at scale: OpenAI’s aanpak van continuous adversarial training met RL-based attackers
Constitutional AI: Anthropic’s werk aan models die inherent veiliger zijn door design
Instruction hierarchy: Onderzoek naar models die expliciet kunnen redeneren over de bron en betrouwbaarheid van instructies

System-level defenses

Runtime verification: Real-time checking van agent behavior tegen expected patterns
Formal verification: Mathematische bewijzen van bepaalde security properties
Human-in-the-loop for critical actions: Altijd menselijke goedkeuring vereisen voor high-stakes decisions

6.3 Realistische verwachtingen

De realiteit is dat we waarschijnlijk moeten leren leven met prompt injection als een permanent risico, vergelijkbaar met phishing en social engineering. Het doel is niet om het volledig te elimineren, maar om:

De kosten van aanvallen verhogen: Maak succesvolle exploits moeilijker en duurder
De impact beperken: Zelfs als een injection slaagt, beperk de schade door defense in depth
Detectie verbeteren: Vang aanvallen vroeg op voordat ze significante schade aanrichten
Recovery versnellen: Implementeer snelle incident response en recovery procedures

7. Conclusies en aanbevelingen

7.1 Belangrijkste bevindingen

Prompt injection is de #1 kwetsbaarheid in moderne AI-systemen volgens OWASP, aanwezig in 73% van productie-implementaties
Indirect prompt injection is gevaarlijker dan direct injection omdat het onzichtbaar is en via normale data flows werkt
Alle grote AI-agents zijn kwetsbaar: ChatGPT Atlas, Claude Code, Google Jules, GitHub Copilot, Cursor, Devin, en anderen hebben gedocumenteerde exploits
Veel kwetsbaarheden blijven ongepatcheerd omdat ze inherent zijn aan het design van de systemen
Traditionele web security mechanismen falen: Same-origin policy, CORS, en input sanitization bieden geen bescherming tegen prompt injection
Het probleem is fundamenteel: Voortkomend uit hoe LLMs werken, waarschijnlijk nooit volledig op te lossen

7.2 Aanbevelingen voor verschillende stakeholders

Voor beleidsmakers en regelgevers

Ontwikkel specifieke richtlijnen voor AI-agent security binnen de EU AI Act
Vereis mandatory security assessments voor high-risk AI-agents in kritieke sectoren
Stel minimum security standards vast voor AI-agents met toegang tot persoonlijke data
Creëer een Europees incident response framework voor AI security breaches
Investeer in publiek onderzoek naar fundamentele oplossingen voor prompt injection

Voor bedrijven en organisaties

Implementeer een moratorium op deployment van AI-agents in kritieke systemen totdat adequate security measures zijn geïmplementeerd
Voer comprehensive risk assessments uit voordat AI-agents worden gedeployed
Investeer in security training specifiek gericht op AI-agent risks
Implementeer defense-in-depth strategieën met meerdere security layers
Ontwikkel duidelijke incident response procedures voor AI-agent compromises

Voor AI-bedrijven (OpenAI, Anthropic, Google, etc.)

Prioriteer security over feature velocity – stop met het racen naar market met onveilige features
Investeer significant meer in automated red teaming en adversarial testing
Wees transparant over bekende kwetsbaarheden en limitaties
Implementeer secure-by-default configurations
Werk samen met de security research community via bug bounty programs

Voor individuele gebruikers

Wees extreem voorzichtig met het gebruik van AI-agents voor gevoelige taken
Geef nooit AI-agents toegang tot vertrouwelijke bestanden of accounts
Gebruik logged-out mode wanneer mogelijk
Verifieer altijd agent actions voordat je ze goedkeurt
Blijf geïnformeerd over nieuwe security risks en best practices

7.3 De weg vooruit

We bevinden ons in een kritiek moment in de evolutie van AI-technologie. AI-agents hebben enorm potentieel om productiviteit te verhogen en nieuwe mogelijkheden te creëren, maar de security risks zijn reëel en significant. Zoals Simon Willison in 2022 al waarschuwde : “There may be systems that should not be built at all until we have a robust solution.”

De vraag is niet of prompt injection aanvallen zullen plaatsvinden, maar wanneer en hoe erg de schade zal zijn. Organisaties en individuen die nu AI-agents implementeren zonder adequate security measures nemen bewust risico’s die kunnen leiden tot data breaches, financiële verliezen, reputatieschade, en in sommige gevallen fysieke veiligheidsrisico’s.

De tijd voor actie is nu. Elke dag uitstel vergroot de exposure aan wat OWASP de #1 AI exploit van 2025 noemt. We moeten als industrie, als samenleving, en als individuen de security van AI-agents serieus nemen voordat we geconfronteerd worden met grootschalige incidenten die het vertrouwen in AI-technologie fundamenteel kunnen beschadigen.

Bronnen en referenties

Primaire bronnen

OWASP Top 10 for LLM Applications 2025 – Prompt injection als #1 kwetsbaarheid
Lakera – Indirect Prompt Injection: The Hidden Threat – Uitgebreide analyse van IPI
Brave Security – Agentic Browser Security: Indirect Prompt Injection in Perplexity Comet – Perplexity Comet vulnerability
OpenAI – Continuously hardening ChatGPT Atlas against prompt injection attacks – OpenAI’s defense strategy
Claude Cowork Exfiltrates Files – Anthropic Claude vulnerability
Simon Willison – The Summer of Johann: prompt injections as far as the eye can see – Overview van Johann Rehberger’s research
LevelBlue – When User Input Lines Are Blurred: Indirect Prompt Injection Attack Vulnerabilities in AI LLMs – Fundamentele analyse
Brave – Unseeable prompt injections in screenshots – Screenshot-based attacks

Academische bronnen

MITRE ATLAS Matrix – Adversarial techniques voor ML systems
CachePrune Research – Pruning en attribution techniques
EVA Framework – Red teaming GUI agents

Security research

Johann Rehberger’s Blog – Extensive prompt injection research
Simon Willison’s Blog – Ongoing coverage sinds 2022

Dit research document is opgesteld door Veilig.AI voor educatieve doeleinden. Alle externe bronnen zijn gelinkt voor verificatie en verdere studie.

Samenvatting

1. Wat maakt AI-agents zo gevaarlijk?

1.1 Van tekst naar actie: het verschil met traditionele AI

1.2 Direct vs. indirect prompt injection

2. Concrete gevaren en aanvalsscenario’s

2.1 Bewezen exploits in productiesystemen

2.2 De “AI kill chain” – van injectie tot volledige compromittering

2.3 Europese en Nederlandse scenario’s

3. Waarom is dit probleem zo moeilijk op te lossen?

3.1 Fundamentele architecturele kwetsbaarheid

3.2 Modellen zijn getraind om instructies te volgen

3.3 Kleine instructies, grote gevolgen

3.4 Filtering faalt systematisch

4. Wat doen OpenAI, Google en Anthropic?

4.1 OpenAI’s aanpak: adversarial training en rapid response

4.2 Anthropic’s aanpak: constitutional AI en transparantie

4.3 Google’s aanpak: Gemini en competitive pressure

4.4 Industrie-brede patronen en tekortkomingen

5. Wat kun je zelf doen? Praktische beveiligingsmaatregelen

5.1 Voor individuele gebruikers

5.2 Voor organisaties en bedrijven

5.3 Voor developers en AI engineers

6. De toekomst: kunnen we dit probleem ooit oplossen?

6.1 Fundamentele uitdagingen

6.2 Veelbelovende onderzoeksrichtingen

6.3 Realistische verwachtingen

7. Conclusies en aanbevelingen

7.1 Belangrijkste bevindingen

7.2 Aanbevelingen voor verschillende stakeholders

7.3 De weg vooruit

Bronnen en referenties

Primaire bronnen

Academische bronnen

Security research

Welkom bij Veilig.AI

Voer de code in