Perplexity AI unter Beschuss: KI soll Webseiten trotz expliziter Sperrung gescraped haben

Das KI-Unternehmen Perplexity AI steht erneut im Zentrum einer Kontroverse um unerlaubtes Website-Scraping. Cloudflare hat detaillierte Beweise dafür vorgelegt, dass die KI-Suchmaschine systematisch Webseiten-Inhalte sammelt, obwohl diese ausdrücklich KI-Scraping durch robots.txt-Dateien untersagt haben. Der Fall verschärft die Debatte um KI-Ethik und Urheberrecht in der Ära generativer Intelligenz.
Cloudflare, einer der weltweit größten Anbieter von Internetinfrastruktur, veröffentlichte am Montag eine umfassende Untersuchung, die Perplexity vorwirft, „Stealth-Crawling-Verhalten“ zu praktizieren und dabei ihre Crawling-Identität zu verschleiern, um die Präferenzen von Webseiten zu umgehen. Die Vorwürfe wiegen schwer, da sie nicht nur technische Verstöße betreffen, sondern grundlegende Prinzipien des Internets infrage stellen.
Die Kontroverse entfachte, nachdem Cloudflare-Kunden berichteten, dass Perplexity trotz expliziter Blockierung weiterhin auf ihre Inhalte zugriff. Selbst Webseiten, die sowohl durch robots.txt-Dateien als auch durch spezielle Web Application Firewall-Regeln (WAF) geschützt waren, konnten das unerlaubte Scraping nicht verhindern. Cloudflare beobachtete Millionen von Anfragen pro Tag von Perplexity-verknüpften IP-Adressen, die auf blockierte Seiten abzielten.
Um die Vorwürfe zu untermauern, führte Cloudflare kontrollierte Tests durch. Das Unternehmen erstellte völlig neue Domains, die nicht öffentlich zugänglich oder in Suchmaschinen indexiert waren. Trotz strikter robots.txt-Sperren konnte Perplexity detaillierte Informationen über die Inhalte dieser Testseiten liefern, wenn Nutzer entsprechende Fragen stellten. Diese Erkenntnisse belegen, dass das KI-System aktiv Schutzmaßnahmen umgeht.
Raffinierte Umgehungsstrategien: Wie Perplexity Sperren aushebelt
Perplexity nutzt nicht nur ihre offiziellen User-Agents, sondern auch generische Browser, die Google Chrome auf macOS imitieren, wenn ihre deklarierten Crawler blockiert werden. Diese Tarnung macht es für Webseitenbetreiber nahezu unmöglich, das unerlaubte Scraping zu erkennen und zu unterbinden.
Die Analyse von Cloudflare zeigt ein systematisches Vorgehen. Während Perplexity offiziell zwei Crawler betreibt – PerplexityBot und Perplexity-User – mit täglich 20 bis 25 Millionen Anfragen, generiert der verschleierte Crawler zusätzlich 3 bis 6 Millionen tägliche Requests. Besonders problematisch ist dabei die Rotation von IP-Adressen und Autonomous System Numbers (ASNs), um Blockierungen zu umgehen.
Die Methoden werden immer ausgefeilter. Perplexity wechselt nicht nur User-Agents, sondern nutzt auch IP-Adressen außerhalb ihrer offiziellen Bereiche und verschiedene Netzwerk-Provider. Diese Taktiken erinnern stark an das Vorgehen von Cyberkriminellen, die Erkennungssysteme austricksen wollen.
Was bedeuten Robots.txt-Dateien und warum sind sie wichtig?
Robots.txt-Dateien sind seit Jahrzehnten der Standard, mit dem Webseitenbetreiber automatisierten Crawlern mitteilen, welche Bereiche ihrer Seite zugänglich sind und welche nicht. Sie bilden das Fundament eines vertrauensvollen Internets, in dem sich alle Akteure an gemeinsame Regeln halten. Die Missachtung dieser Dateien untergräbt dieses Vertrauen fundamental.
Cloudflare definiert fünf klare Prinzipien für verantwortungsvolles Crawling: Transparenz durch ehrliche Identifikation, respektvolles Verhalten ohne übermäßigen Traffic, klar definierte Zwecke, separate Bots für verschiedene Aktivitäten und die strikte Befolgung von Regeln wie robots.txt. Perplexity verstößt nach Einschätzung des Unternehmens gegen alle diese Grundsätze.
Als positives Gegenbeispiel führt Cloudflare OpenAI an. ChatGPT respektiert robots.txt-Dateien und stoppt das Crawling, wenn es nicht erlaubt ist. Zudem implementiert OpenAI den neuen Web Bot Auth-Standard, der HTTP-Anfragen digital signiert und so für zusätzliche Transparenz sorgt.
Branchenweite Auswirkungen: KI-Scraping nimmt dramatisch zu
Die Perplexity-Kontroverse ist symptomatisch für ein breiteres Problem. Laut TollBit ist RAG-orientiertes Scraping (Retrieval-Augmented Generation) inzwischen wichtiger als trainings-orientiertes Scraping geworden, mit einem Wachstum von 49 Prozent zwischen Q4 2024 und Q1 2025. Diese Entwicklung stellt Webseitenbetreiber vor neue Herausforderungen.
Über 2,5 Millionen Webseiten haben bereits CloudflaRes Tools genutzt, um KI-Training komplett zu untersagen. Die Nachfrage nach solchen Schutzmaßnahmen zeigt, dass viele Inhalteanbieter nicht bereit sind, ihre Daten kostenlos für kommerzielle KI-Systeme zur Verfügung zu stellen. Sie fordern Transparenz, Kontrolle und faire Kompensation.
Die rechtlichen Implikationen sind noch nicht vollständig geklärt. Experten beobachten genau, ob Perplexitys Vorgehen die Grenzen des Urheberrechts überschreitet. In Europa könnte das Digital Services Act relevant werden, während in den USA Fair-Use-Regelungen und Computer Fraud and Abuse Act diskutiert werden.
Perplexity selbst hat auf die Vorwürfe defensiv reagiert und die Praktiken verteidigt. Das Unternehmen argumentiert, dass öffentlich zugängliche Informationen für KI-Training genutzt werden können. Diese Position steht jedoch im Widerspruch zu den technischen Beweisen, die Cloudflare vorgelegt hat.
Wendepunkt für KI-Ethik und Internet-Governance
Der Perplexity-Skandal markiert einen Wendepunkt in der Diskussion um verantwortliche KI-Entwicklung. Er zeigt auf, dass technische Innovationen ohne ethische Leitplanken zu problematischen Praktiken führen können, die das Vertrauen ins Internet untergraben. Webseitenbetreiber benötigen wirksamere Schutzmaßnahmen, während KI-Unternehmen transparentere und respektvollere Ansätze entwickeln müssen.
Die Branche steht vor der Herausforderung, Standards zu etablieren, die Innovation ermöglichen, ohne die Rechte von Inhalteanbietern zu verletzen. Cloudflares Initiative für standardisierte robots.txt-Erweiterungen und der Web Bot Auth-Standard von OpenAI weisen in die richtige Richtung. Gleichzeitig werden regulatorische Maßnahmen wahrscheinlich unvermeidlich, wenn sich die Selbstregulierung als unzureichend erweist.
Für Unternehmen bedeutet dies, dass sie ihre Crawler-Strategien überdenken und in transparente, kooperative Ansätze investieren müssen. Nur so können sie das Vertrauen der Internet-Community bewahren und rechtliche Risiken minimieren. Der Fall Perplexity wird als Beispiel dafür in die Geschichte eingehen, wie man es nicht machen sollte.
