Wenn die KI an Kinderspielen scheitert

Gernot Haubner 4 Min. Lesezeit 6715. Juni 2025

Was passiert, wenn die intelligentesten Maschinen der Welt mit einem Spielzeug konfrontiert werden, das jedes Kind im Vorschulalter meistert? Die Antwort ist ernüchternd: Sie versagen spektakulär. Apple-Forscher diese Woche eine Studie veröffentlicht, die der gesamten KI-Industrie einen Realitätscheck verpasst – und dabei aufdeckt, wie weit die Kluft zwischen Marketing-Versprechen und tatsächlicher Leistung klafft.

Die Ergebnisse lesen sich wie ein modernes Märchen vom Kaiser ohne Kleider: Die fortschrittlichsten „Reasoning-Modelle“ unserer Zeit – OpenAIs o3, Anthropics Claude 3.7 und Googles Gemini – scheitern bereits an den simpelsten Logikrätseln, die Generationen von Kindern spielend bewältigt haben.

Die Türme von Hanoi als Stolperstein der Künstlichen Intelligenz

Der Turm von Hanoi ist ein klassisches Puzzle aus dem 19. Jahrhundert: Drei Stäbe, verschieden große Scheiben, eine einfache Regel – niemals darf eine größere Scheibe auf eine kleinere gelegt werden. Was wie ein harmloses Kinderspiel aussieht, entpuppt sich als Achillesferse modernster KI-Systeme. Bei sieben Scheiben lag die Erfolgsquote der getesteten Modelle bereits unter 80 Prozent, bei acht Scheiben brach ihre Leistung vollständig zusammen.

„Basierend auf dem, was wir aus ihren Denkprozessen beobachten, ist ihr Vorgehen weder logisch noch intelligent“, fasst Iman Mirzadeh, Ko-Autor der Studie und Maschinenlern-Ingenieur bei Apple, die erschreckende Erkenntnis zusammen. Die Forscher stellten den Modellen nicht nur die Rätsel, sondern gaben ihnen sogar die Lösungsalgorithmen vor – und dennoch scheiterten sie kläglich.

Milliarden-Investitionen auf dem Prüfstand

Die Studie wirft fundamentale Fragen über die Zukunft der Künstlichen Intelligenz auf. Während Tech-Konzerne Milliarden in die Entwicklung immer größerer und vermeintlich „denkender“ Modelle investieren, offenbart sich ein paradoxer Befund: Jenseits bestimmter Komplexitätsschwellen kollabiert ihre Genauigkeit vollständig. Was die Industrie als Durchbruch auf dem Weg zur Artificial General Intelligence (AGI) vermarktet, erweist sich als Sand im Getriebe der Logik.

Die Apple-Forscher testeten ihre Hypothese an verschiedenen klassischen Puzzles: Neben dem Turm von Hanoi versagten die Modelle auch bei der „Blocks World“ – einem Stapelspiel mit Bauklötzen – und beim „River Crossing“-Rätsel, bei dem Gegenstände unter bestimmten Einschränkungen mit einem Boot über einen Fluss transportiert werden müssen. „Durch umfangreiche Experimente mit verschiedenen Rätseln zeigen wir, dass führende Reasoning-Modelle jenseits bestimmter Komplexitäten einen vollständigen Genauigkeitskollaps erleiden“, schreiben die Wissenschaftler in ihrer vernichtenden Analyse.

Der Mythos vom denkenden Computer

Was wie Science-Fiction klingt, ist längst bittere Realität: Die Anthropomorphisierung von KI-Systemen hat eine gefährliche Kluft zwischen Wahrnehmung und Wirklichkeit geschaffen. Nutzer schreiben den Modellen menschenähnliche Denkfähigkeiten zu, die diese schlichtweg nicht besitzen. Gary Marcus, einer der prominentesten KI-Kritiker unserer Zeit, sieht sich durch die Apple-Studie in seinen seit 1998 vertretenen Thesen bestätigt: „Neuronale Netzwerke verschiedener Art können innerhalb einer Datenverteilung generalisieren, der sie ausgesetzt waren, aber ihre Generalisierungen tendieren dazu, jenseits dieser Verteilung zusammenzubrechen.“

Marcus‘ Analyse trifft den Kern des Problems: Die aktuellen Large Language Models werfen ihre Netze zu weit aus und verlieren sich dabei in der Komplexität. „Was das Apple-Paper grundlegend zeigt, unabhängig davon, wie man AGI definiert, ist, dass diese LLMs, die so viel Hype generiert haben, kein Ersatz für gute, klar spezifizierte konventionelle Algorithmen sind“, argumentiert der Forscher mit der Präzision eines Chirurgen, der einen Tumor freilegt.

Zwischen Vision und Realität

Die Implikationen reichen weit über akademische Diskussionen hinaus. Für Unternehmen bedeutet dies, dass sie nicht einfach die neuesten KI-Modelle in komplexe Problemstellungen „hineinwerfen“ können, ohne mit unvorhersagbaren Ergebnissen rechnen zu müssen. Für die Gesellschaft wirft es fundamentale Fragen über das Vertrauen in generative KI auf – deren Ausgaben bleiben ein Glücksspiel zwischen Brillanz und Versagen.

Dennoch wären pauschale Verdammungsurteile verfehlt. Die aktuellen Modelle haben durchaus ihre Berechtigung in spezifischen Anwendungsfeldern, wo sie bereits heute beeindruckende Leistungen erbringen. Doch wer glaubt, dass Large Language Models ein direkter Weg zu jener Form von AGI sind, die unsere Gesellschaft grundlegend zum Besseren transformieren könnte, „macht sich etwas vor“, wie Marcus unverblümt konstatiert.

Ein Wendepunkt im KI-Zeitalter?

Die Apple-Studie markiert möglicherweise einen Wendepunkt in der öffentlichen Wahrnehmung Künstlicher Intelligenz. Während die Industrie weiterhin auf Skalierung setzt – mehr Daten, mehr Parameter, mehr Rechenleistung –, offenbart sich ein strukturelles Problem: Intelligenz lässt sich nicht einfach durch größere Modelle erkaufen. Die Herausforderung liegt tiefer, in den fundamentalen Architekturen und Ansätzen, die der aktuellen KI-Generation zugrunde liegen.

Vielleicht ist dies der Moment, in dem die KI-Forschung ihren Blick wieder auf die Grundlagen richtet – auf die Frage, was Intelligenz wirklich bedeutet und wie sie entstehen kann. Denn wenn die fortschrittlichsten Systeme unserer Zeit an einem Kinderspielzeug scheitern, dann ist es Zeit, nicht nur die Antworten, sondern auch die Fragen zu überdenken, die wir an die Zukunft der Künstlichen Intelligenz stellen.