Research: Waarom AI-antwoorden minder betrouwbaar zijn dan zoekresultaten

Deze research is de basis voor het artikel “Waarom Google’s AI-antwoorden vaak slechter zijn dan de zoekresultaten eronder“.


Aanleiding: Radar AVROTROS video over onbetrouwbare AI-overzichten van Google
Kernvraag: Waarom zijn AI-antwoorden boven zoekresultaten niet van dezelfde kwaliteit als de zoekresultaten zelf?


Context: het Radar onderzoek

Bevindingen Consumentenbond:

  • 100 vragen gesteld aan Google AI-overzicht
  • 70 vragen kregen een AI-antwoord
  • 20 van de 70 antwoorden (28,5%) klopten niet citation

Voorbeelden van misleidende antwoorden:

  • Zonnebank: Tips van zonnebankstudio’s, geen waarschuwing dat zonnebank kanker veroorzaakt. WHO wordt niet gebruikt als bron.
  • Vapen: Geen melding dat vapen schadelijker kan zijn dan roken
  • Duurzame cruise: Alleen commerciële bronnen van rederijen, geen objectieve info dat cruises vervuilender zijn dan vliegtuigen
  • Cordiceps pillen: Alleen voordelen, alle bronnen zijn webshops die de pillen verkopen

Gebruikersgedrag (Radar Panel, 16.000 respondenten):

  • 80% checkt soms of nooit de bronnen achter het AI-overzicht
  • 41% gelooft het als het er geloofwaardig uitziet
  • 9% vertrouwt er blindelings op
  • Totaal: 50% vertrouwt doorgaans op het AI-overzicht citation

De twee informatiebronnen van AI-antwoorden

AI-antwoorden zoals Google’s AI Overviews baseren zich op twee fundamenteel verschillende informatiebronnen:

1. Pre-trained kennis (parametric knowledge)

Wat is het?

  • Kennis die tijdens training in de modelparameters is opgeslagen
  • “Deep understanding, sometimes called parameterized knowledge, makes LLMs useful in responding to general prompts” citation
  • Deze kennis is statisch en bevroren op het moment van training

Hoe wordt deze kennis gefilterd?

  • Via multi-stage filterpipeline: heuristische filtering, deduplicatie, model-gedreven kwaliteitsbeoordeling
  • Probleem: “LLM training data is static and introduces a cut-off date on the knowledge it has” citation
  • Cruciale beperking: Veel minder rigoureus gefilterd dan PageRank-gerangschikte zoekresultaten

Kwaliteitsproblemen:

  • Trainingsdata bevat veel SEO-spam en laagwaardige content die door filters glipte
  • “The nature of LLM technology introduces unpredictability in LLM responses” citation
  • Eenmaal getraind blijft slechte data permanent in het model zitten

2. Live zoekresultaten via RAG (non-parametric knowledge)

Wat is RAG?

  • Retrieval-Augmented Generation: “combines the strengths of traditional information retrieval systems (such as search and databases) with the capabilities of generative large language models” citation
  • Google’s AI Overviews gebruiken RAG om real-time webpagina’s op te halen en in de prompt te verwerken

Hoe werkt het?

  1. Gebruiker stelt vraag
  2. Google zoekt relevante pagina’s (met PageRank-filtering!)
  3. AI leest deze pagina’s en maakt er een samenvatting van
  4. AI combineert deze info met zijn pre-trained kennis

Quote uit Radar video:

“Die bekijkt al die pagina’s in volgorde. Ze hebben een AI robotje zeg maar wat dan vervolgens al die pagina’s nog een keer afgaat en die zegt: ‘Hey, ik heb daar deze teksten gevonden en maak daar een samenvatting van.’ En die zet hij boven de zoekresultaten.” citation

Voordelen van RAG:

  • “Access to Updated Knowledge: LLMs are trained on fixed datasets but RAG allows them to fetch fresh and real time information from external sources” citation
  • “When new information becomes available, rather than having to retrain the model, all that’s needed is to augment the model’s external knowledge base with the updated information” citation

Hoe verhouden deze twee bronnen zich tot elkaar?

Google’s AI Overviews: een hybride systeem

Officiële beschrijving:

  • “AI Overviews don’t just generate responses based on training data. The system combines a customized language model with Google’s core web ranking systems” citation
  • “Google’s core systems still lead - AI Overviews use PageRank, Reviews, and Helpful Content to rank results” citation

Ranking factors voor AI Overviews:

  • PageRank (traditionele autoriteit en linkstructuur)
  • RankBrain (machine learning begrip van query intent)
  • BERT (natural language processing)
  • Helpful Content System (kwaliteitsevaluatie) citation

Welke bron wint? RAG vs pre-trained knowledge

Kritieke bevinding: RAG-data heeft niet automatisch voorrang op pre-trained kennis.

Uit onderzoek:

  • “Only 33.42% of sources in AI Overviews come from domains ranking in the top 10 organic results. About 46.54% come from domains not found in the top 50” citation
  • Dit suggereert: “Google generates AI answers first, then finds supporting sources afterward” citation

Wat betekent dit?
Het AI-model genereert eerst een antwoord op basis van zijn pre-trained kennis, en zoekt dan pas naar bronnen die dit antwoord ondersteunen. Als die pre-trained kennis vervuild is met SEO-spam of commerciële content, kleurt dat het hele antwoord.

IBM’s perspectief op RAG:

“In the generative phase, the LLM draws from the augmented prompt and its internal representation of its training data to synthesize an engaging answer tailored to the user in that instant” citation

Cruciale nuance: Het model combineert beide bronnen, maar:

  • Als de pre-trained kennis sterk is over een onderwerp, kan die domineren
  • Als retrieved content tegenstrijdig is, kan het model verward raken
  • “LLMs may struggle to recognize when they lack sufficient information to provide a reliable response. Without specific training, models may generate answers even when they should indicate uncertainty” citation

Waarom gaat het mis? De drie hoofdoorzaken

1. Slechte kwaliteitsfiltering van trainingsdata

Het fundamentele probleem:

  • LLM trainingsdata wordt veel minder rigoureus gefilterd dan PageRank dat deed
  • PageRank gebruikte linkstructuur als kwaliteitssignaal: sites waarnaar gezaghebbende bronnen verwezen, kregen hogere rankings
  • LLM-filtering gebruikt heuristieken en AI-classifiers, maar deze zijn niet zo effectief als PageRank’s sociale validatie

Concrete problemen:

  • “Scale Versus Sophistication: As training datasets expand toward the limits of available high-quality content, maintaining quality becomes increasingly difficult” citation
  • SEO-geoptimaliseerde spam kan door filters glippen als het linguïstisch sophisticated genoeg is
  • Commerciële content (zoals van zonnebankstudio’s) ziet er vaak “hoogwaardig” uit voor AI-filters

2. RAG selecteert niet altijd de beste bronnen

Onderzoeksbevindingen:

  • 46,54% van bronnen in AI Overviews komt niet uit de top 50 organische resultaten citation
  • Dit betekent: bronnen die Google’s eigen PageRank laag rangschikte, worden toch gebruikt in AI-antwoorden

Waarom gebeurt dit?

  • “The AI Overview typically aligns with the consensus of top results. If an AIO were to contradict the highest-ranked sources, it would raise questions about whether the AI is incorrect or Google’s rankings are flawed” citation
  • Het systeem zoekt naar confirmatie van wat het model al “denkt” te weten, niet naar de beste bronnen

Radar-voorbeeld zonnebank:

“Een hele objectieve bron zoals de World Health Organization, die wordt niet gebruikt in het AI overzicht. Er worden allemaal tips gegeven hoe je goed onder de zonnebank kunt. Maar dat zijn allemaal antwoorden van zonnebankstudio’s. Dus het zijn marketing ingegeven antwoorden.” citation

3. Commerciële incentives

Google’s verdienmodel:

“Google is eigenlijk gewoon een heel groot advertentiemodel. Het verdient aan ons als gebruikers. En dat doen ze op verschillende manieren. Namelijk door onze data op te slaan, maar ook om door ons zoveel mogelijk te laten doorklikken naar adverteerders die betalen voor die advertenties.” citation

Reddit als voorbeeld:

  • Reddit-resultaten staan vaak hoog in zoekresultaten en AI Overviews
  • “Dat is geen geverifieerde bron. Daar kun je alles zeggen wat je wil” citation
  • Waarom gebruikt Google Reddit? Google heeft een $60 miljoen deal met Reddit voor toegang tot data [externe context]

In hoeverre corrigeert RAG-data verouderde pre-trained kennis?

Het korte antwoord: onvoldoende

Theoretisch voordeel van RAG:

  • “RAG synergistically merges LLMs’ intrinsic knowledge with the vast, dynamic repositories of external databases” citation
  • “When users need authoritative, source-grounded answers rather than broad knowledge alone, RAG can provide the necessary depth and accuracy” citation

Praktische realiteit:

  1. Pre-trained bias blijft dominant: Het model genereert eerst een antwoord, zoekt dan pas bronnen
  2. Confirmation bias: RAG haalt bronnen op die het pre-trained antwoord bevestigen
  3. Geen echte fact-checking: “LLMs may struggle to recognize when they lack sufficient information to provide a reliable response” citation

Cruciale beperking:

“One limitation is that while RAG reduces the need for frequent model retraining, it does not remove it entirely” citation

Wat betekent dit voor gebruikers?

  • Als slechte informatie in de trainingsdata zit, blijft die invloed uitoefenen
  • RAG kan dit verzachten maar niet elimineren
  • Het systeem is niet ontworpen om trainingsdata te corrigeren, maar om deze aan te vullen

Het fundamentele verschil met PageRank

PageRank: sociale validatie in real-time

Hoe het werkte:

  • Websites waarnaar veel gezaghebbende sites verwezen, kregen hogere rankings
  • Dit was een vorm van sociale validatie: de web-community bepaalde wat waardevol was
  • Dynamisch: nieuwe links betekenden direct nieuwe rankings
  • Transparant: je kon zien welke sites naar elkaar verwezen

LLM training: bevroren momentopname

Hoe het werkt:

  • Trainingsdata wordt één keer gefilterd en ingevroren
  • Statisch: geen updates zonder volledige hertraining
  • Ondoorzichtig: gebruikers weten niet welke bronnen het model beïnvloedden
  • Geen sociale validatie: filters zijn algoritmisch, niet gebaseerd op community-consensus

Quote die dit samenvat:

“LLM training data tends to be hopelessly out-of-date (as of writing, ChatGPT’s knowledge of the world ends at January 2022)” citation

Waarom RAG dit niet volledig oplost

Het probleem:

  • RAG voegt real-time data toe, maar vervangt de pre-trained kennis niet
  • Het model blijft beïnvloed door zijn trainingsdata
  • “The AI doesn’t rely solely on training data” – maar het vertrouwt er nog steeds op citation

Analogie:
Stel je voor dat iemand 20 jaar geleden zijn opleiding heeft afgerond (pre-training), en nu elke dag 10 minuten nieuws leest (RAG). Die persoon heeft wel toegang tot nieuwe info, maar zijn fundamentele wereldbeeld is gevormd door die oude opleiding. Als die opleiding vol zat met misinformatie, blijft dat zijn denken kleuren – ook al leest hij nu betere bronnen.


Aanvullende risicofactoren

1. Inconsistentie

Uit Radar onderzoek:

“Het kan zijn dat als je dezelfde vraag opnieuw aan Google stelt, je toch een ander antwoord krijgt van het AI overzicht. Dat maakt het ook juist heel tricky omdat het soms wel klopt en je dus niet weet wanneer het niet klopt.” citation

2. Gebrek aan transparantie

Gebruikers weten niet:

  • Welke trainingsdata het model heeft beïnvloed
  • Hoe zwaar pre-trained kennis vs RAG-data weegt
  • Waarom bepaalde bronnen wel/niet gebruikt worden

Nienke Schippers (Trouw journalist):

“Het gevaar dat ze niet verder klikken is dat ze niet goed weten waar dit nou eigenlijk precies vandaan komt wat er in dat AI overzicht staat.” citation

3. Google’s verantwoordelijkheid

Google’s reactie op kritiek:

“Daar zijn wij ook niet voor. Wij rangschikken en wij geven informatie en we geven de links naar de achterliggende websites, maar het is aan de consumenten zelf om te beoordelen of het wel klopt.” citation

Schippers’ reactie:

“Heel bijzonder omdat mensen vertrouwen Google. Dus als Google dan nu gaat zeggen: ‘Ja, dat is niet onze verantwoordelijkheid.’ Dat vind ik eigenlijk een heel makkelijke manier van verantwoordelijkheid afschuiven.” citation


Conclusie: waarom AI-antwoorden minder betrouwbaar zijn

De kern van het probleem

  1. Trainingsdata is slechter gefilterd dan PageRank-gerangschikte zoekresultaten
  2. RAG gebruikt niet altijd de beste bronnen – vaak bronnen buiten top 50
  3. Pre-trained kennis blijft dominant – RAG vult aan maar vervangt niet
  4. Commerciële incentives beïnvloeden zowel training als RAG-selectie
  5. Geen real-time sociale validatie zoals PageRank dat had

Het fundamentele verschil

  • PageRank: Dynamische, transparante, sociaal gevalideerde kwaliteitsbeoordeling
  • LLM Training: Statische, ondoorzichtige, algoritmisch gefilterde momentopname
  • RAG: Voegt real-time data toe maar corrigeert fundamentele trainingsbiases niet voldoende

Voor gebruikers

Kritisch blijven:

  • Check altijd de bronnen naast het AI-overzicht
  • Wees extra alert bij medische, financiële of veiligheidsadvies
  • Besef dat 50% van de mensen blindelings vertrouwt – wees niet die 50%

Bronnen voor verder onderzoek

Over RAG en LLM architectuur

Over Google AI Overviews specifiek

Over LLM training data kwaliteit

Originele aanleiding