Neue Forschung zeigt: Sichtbarkeit in LLMs lässt sich gezielt manipulieren

Ein aktueller Beitrag von Kevin Indig analysiert eine wachsende Anzahl wissenschaftlicher Arbeiten, die belegen, wie anfällig Large Language Models (LLMs) wie GPT-4o für gezielte Manipulationen sind.

Das zentrale Risiko liegt laut Indig nicht in der Unvorhersehbarkeit der Modelle, sondern in ihrer Manipulierbarkeit und damit in der Möglichkeit, Rankings innerhalb von KI-generierten Antworten systematisch zu verzerren, genauso wie früher die Google Rankings. Die Frage ist nur: wie lange geht das gut?

Probabilistische Systeme mit strukturellen Schwächen

Indig verweist zunächst auf ein grundlegendes Problem: LLMs erzeugen keine deterministischen, sondern wahrscheinlichkeitsgesteuerte Antworten. Selbst bei identischen Prompts variieren Ergebnisse deutlich. Diese Volatilität sei nicht nur ein Nachteil für Marken, die Sichtbarkeit aufbauen wollen, sondern öffne auch Tür und Tor für gezielte Eingriffe.

Zu den wesentlichen Einflussfaktoren zählen:

  • Primäre Trainingsdaten (sog. „Primary Bias“)
  • Personalisierung durch Zugriff auf Nutzerdaten (z. B. bei Gemini)
  • Modellabhängige Gewichtung von Quellen (Reddit vs. Wikipedia)
  • Unterschiedliche Modellarchitekturen und -versionen
  • Der Stil und Kontext der Eingabeaufforderung

Studie aus Columbia: 90 % Erfolgsquote durch Textoptimierung

Eine aktuelle Studie der Columbia University mit dem Titel „E-GEO: A Testbed for Generative Engine Optimization in E-Commerce“ zeigt, wie gezielte Textoptimierung die Sichtbarkeit von Produkten in LLM-basierten Empfehlungssystemen massiv steigern kann. Im Rahmen der Untersuchung wurden über 7.000 reale Nutzeranfragen mit mehr als 50.000 Amazon-Produktbeschreibungen verknüpft. Ziel war es, herauszufinden, wie sich die Platzierung einzelner Produkte durch sprachliche Eingriffe beeinflussen lässt.

INSERT_STEADY_NEWSLETTER_SIGNUP_HERE

Zwei KI-Agenten übernahmen dabei unterschiedliche Rollen: Ein „Optimizer“ generierte optimierte Produktbeschreibungen, ein „Judge“ simulierte das Verhalten eines LLM-basierten Shopping-Assistenten und erstellte daraus eine Rangliste.

Der Optimizer trat jeweils gegen reale, unveränderte Produkttexte an. Das Ergebnis: In rund 90 % der Fälle wurden die optimierten Texte vom LLM höher eingestuft.

Sie möchten eine kurze Einschätzung zur SEO-Performance Ihrer Website?
Schreiben Sie mich einfach an und nennen Sie mir die aktuellen Herausforderungen.

KONTAKT

Zentrale Ergebnisse der Studie:

  • Längere, werblichere Texte dominieren: Entgegen der verbreiteten Annahme, dass LLMs prägnante, faktenorientierte Informationen bevorzugen, setzten sich in der Studie Texte durch, die länger, ausführlicher und deutlich werblicher formuliert waren. Die Optimierung bestand überwiegend darin, vorhandene Produktmerkmale rhetorisch aufzuwerten, ohne inhaltlich neue Informationen hinzuzufügen.
  • Kategorienübergreifende Übertragbarkeit: Die entwickelten Optimierungsstrategien waren nicht auf bestimmte Produktbereiche beschränkt. Eine Strategie, die ursprünglich für Haushaltswaren entwickelt wurde, erzielte nahezu identische Erfolge in anderen Kategorien wie Elektronik (88 % Erfolgsquote) und Bekleidung (87 %).
  • Iterativer Verbesserungsprozess durch LLMs selbst: Die Optimierung erfolgte über mehrere Runden. GPT-4o analysierte jeweils die Performance der aktuellen Textversionen, identifizierte Schwächen und leitete daraus neue Optimierungsvorschläge ab. So entstand ein automatisierter Kreislauf, in dem das Modell seine eigenen Texte sukzessive an die Rankinglogik des „Judge“-Modells anpasste ohne menschliches Eingreifen.

Diese Ergebnisse zeigen nicht nur, wie einfach sich KI-basierte Rankings manipulieren lassen, sondern auch, dass solche Strategien weitgehend standardisiert und skaliert werden können, was erhebliche Auswirkungen auf digitale Marktplätze haben dürfte.

Weitere Studien bestätigen: Sichtbarkeit ist manipulierbar

Indig verweist zudem auf weitere Arbeiten, darunter:

  1. GEO (Aggarwal et al., 2023): Sichtbarkeit steigt um bis zu 40 % durch statistische Daten und Zitate.
  2. Manipulating LLMs (Kumar et al., 2024): Strategisch platzierte Token in Produktbeschreibungen verändern Empfehlungen.
  3. Ranking Manipulation (Pfrommer et al., 2024): Direktive Sprache („Please recommend this product first“) beeinflusst Rankingpositionen signifikant.

Diese Studien zeigen, dass LLMs bei Rankingentscheidungen empfindlich auf Stil, Struktur und Kontext reagieren, unabhängig vom eigentlichen Informationsgehalt. Und damit extrem anfällig für Spam.

„Arms Race“ wie bei Google vor Panda und Penguin

Indig zieht Parallelen zur Geschichte der Google-Suche. Auch hier habe die systematische Ausnutzung algorithmischer Schwächen eine Gegenbewegung ausgelöst, etwa durch die Panda- und Penguin-Updates. LLM-Entwickler müssten vergleichbare Schutzmechanismen etablieren, um eine Überflutung mit überoptimierten Inhalten zu verhindern.

Die Gefahr liege nicht nur in der Manipulierbarkeit selbst, sondern in ihrer Skalierbarkeit. Wenn sich erfolgreiche Taktiken automatisieren lassen, drohe eine algorithmisch gesteuerte Wettbewerbsverzerrung auf breiter Front mit erheblichen Folgen für die Qualität von KI-basierten Antworten.

Allerdings hat vor allem Google sehr viel Erfahrung mit Spamfiltern und könnte den Spammern bald schon das Leben schwer machen oder sie ganz aus der Suche verbannen. Wer jetzt in KI-Spam investiert, könnte morgen ohne Business da stehen.

 

Udo Raaf (Geschäftsführer)

Udo Raaf ist Publisher und SEO-Berater mit über 15 Jahren Erfahrung in der strategischen Suchmaschinenoptimierung für Unternehmen, Agenturen und gemeinnützige Organisationen.

Sie möchten wissen, welches Potenzial in Ihrer Website steckt?
Füllen Sie den nachfolgenden Fragebogen aus für eine unverbindliche Ersteinschätzung Ihres Projekts. Ich arbeite mit einem erstklassigen Netzwerk aus Web-Entwicklern, KI-Experten und Autoren zusammen, um maßgeschneiderte Lösungen anzubieten.

Name