Apple-Studie: Warum „denkfähige“ Sprachmodelle in der Praxis versagen

Thomas Wagner 4 Min. Lesezeit 6523. Juni 2025

Große „Reasoning-Modelle“ sollen der künstlichen Intelligenz eine Art logisches Denkvermögen verleihen. Eine neue Untersuchung des Apple-Forschungsteams wirft daran erhebliche Zweifel auf – und legt nahe, dass hinter dem Versprechen mehr Marketing als Mathematik steckt. Eine im Juni veröffentlichte...

Eine im Juni veröffentlichte Studie von Apple zeigt: Sogenannte Large Reasoning Models (LRMs) wie ChatGPT o3 mini, DeepSeek-R1 und Claude 3.7 Sonnet liefern nur auf dem Papier beeindruckende Resultate. Sobald die Aufgaben komplizierter werden, bricht ihre Leistung dramatisch ein – selbst dann, wenn der Lösungsweg vorgegeben ist. Die Befunde stellen das Geschäftsmodell vieler KI-Anbieter infrage und heizen die Debatte über Kosten, Nutzen und Risiken der neuen „Denkmaschinen“ an.

Was Reasoning-Modelle eigentlich leisten sollen

Seit rund einem Jahr vermarkten OpenAI, Google, Anthropic und andere ihre jüngsten Sprachmodelle explizit als „Reasoning-fähig“. Gemeint ist die Fähigkeit, komplexe Probleme in Zwischenschritte zu zerlegen – ähnlich wie Menschen eine Rechenaufgabe notieren, bevor sie das Ergebnis präsentieren. Das Konzept wirkt bestechend: Statt lediglich wahrscheinliche Satzfortsetzungen zu erzeugen, sollen die Modelle einen nachvollziehbaren Gedankengang offenlegen und dadurch robuster, überprüfbarer und letztlich vertrauenswürdiger sein.

Die Apple-Forscher bezweifeln jedoch, dass diese Selbstbeschreibungen mit echter Problemlösung korrelieren. In ihrer Arbeit The Illusion of Thinking konstruieren sie kontrollierte Puzzle-Umgebungen – unter anderem klassische Probleme wie „Tower of Hanoi“ oder „Flussüberquerung“. Damit lässt sich die Komplexität Schritt für Schritt erhöhen, ohne die logische Struktur zu verändern.

Drei Leistungsklassen und der plötzliche Absturz

Das Ergebnis überrascht selbst Optimisten:

Einfache Aufgaben – etwa das Verschieben von drei Scheiben auf dem Turm – lösen klassische LLMs ohne „Reasoning-Modus“ genauso gut oder minimal besser als ihre denkenden Pendants.
Mittlere Komplexität – hier beginnen LRMs, einen Vorsprung herauszuarbeiten. Zusätzliche „Chain-of-Thought“-Tokens helfen, Zwischenschritte korrekt abzubilden.
Hohe Komplexität – schon wenige zusätzliche Objekte oder Schritte lassen die Genauigkeit aller Modelle nahezu gegen null fallen. Selbst wenn der Algorithmus explizit übergeben wird, verlieren die Modelle den Faden oder widersprechen sich in aufeinanderfolgenden Puzzles.

Die Forscher sprechen von einem „vollständigen Kollaps der Genauigkeit jenseits eines bestimmten Schwierigkeitsgrads“ und vermuten ein skalierendes Limit: Mit zunehmender Problemgröße verlängern die LRMs ihre Denkspur zunächst, reduzieren sie aber abrupt, sobald zu viele Möglichkeiten im Suchraum entstehen.

Halluzinationen als Kehrseite des „Reasonings“

Die Schwächen bleiben nicht auf Puzzles beschränkt. OpenAI musste jüngst einräumen, dass seine neuen Reasoning-Modelle o3 und o4-mini zwar in Benchmarks glänzen, aber deutlich häufiger halluzinieren als frühere Varianten. Interne Tests beziffern die Fehlerrate bei Personenabfragen auf bis zu 48 Prozent – also fast jede zweite Antwort.

Für Nutzer bedeutet das: Die sichtbare „Gedanken-Kaskade“ vermittelt Sicherheit, während sich in Wahrheit falsche Prämissen oder Rechenfehler einschleichen. Für Unternehmen in regulierten Branchen – vom Gesundheitswesen bis zur Justiz – ist das ein kaum kalkulierbares Risiko.

Teure Illusion? Die Kostenfrage

Reasoning-Modelle sind nicht nur rechenintensiver, sie verteuern auch das Training spürbar. Eine Statista-Analyse schätzt die Trainingskosten führender KI-Systeme bereits jetzt auf mittlere zweistellige Millionenbeträge; bis 2027 könnten einzelne Läufe die Milliarden-Marke übersteigen, wenn der aktuelle Trend anhält.

Die Apple-Studie deutet an, dass dieser zusätzliche Aufwand derzeit keinen proportionalen Nutzen bringt. Branchenbeobachter warnen daher vor einem ökonomischen Dead End: Immer teurere Modelle, die im Alltag kaum robuster sind als ihre Vorgänger.

Grenzen der Untersuchung und offene Fragen

Die Autoren räumen ein, dass Puzzles nur einen Teil des Reasoning-Spektrums abdecken. Realweltaufgaben wie Code-Generierung oder juristische Analyse könnten andere Erfolgsprofile zeigen. Gleichwohl unterstreicht die Arbeit, dass Benchmarks allein keine verlässliche Aussage über Generalisierungsfähigkeit erlauben – ein Hinweis, den auch externe Fachleute im Interview mit IT Pro betonen.

Was heißt das für die Praxis?

Produktentwicklung: Anbieter müssen erklären, welche Aufgabe ein Reasoning-Modus tatsächlich verbessert – und welche Mehrkosten vertretbar sind.
Regulierung: Die EU-KI-Verordnung sieht Transparenzpflichten für Hochrisiko-Anwendungen vor. Wenn sich Denkpfade als brüchig erweisen, steigen die Anforderungen an Nachweis und Monitoring.
Forschung: Apples Methodik legt nahe, künftige Evaluierungen stärker an Problemkomplexität auszurichten statt an statischen Datensätzen. Offene Puzzle-„Gymnasien“ könnten zum neuen Standard werden, ähnlich wie Imagenet einst für die Computer Vision.

Ausblick

Apple selbst positioniert sich bislang zurückhaltend. Die Studie schließt mit dem Appell, neue Trainingsparadigmen zu erforschen, die „allgemeine Schlussfolgerungsfähigkeiten“ jenseits von Benchmark-Tuning ermöglichen. Ob das gelingt, ist offen. Fest steht: Solange Sprachmodelle ihre eigenen Denkpfade nicht stabil über schwierige Terrains führen können, bleibt das Versprechen vom maschinellen Denken eine Illusion – und die Suche nach robusten, bezahlbaren KI-Systemen geht weiter.

Newsletter abonnieren

Erhalte die neuesten KI-News direkt in dein Postfach.

#Sprachmodelle#Künstliche Intelligenz#Apple#KI-Forschung#Logik

Apple-Studie: Warum „denkfähige“ Sprachmodelle in der Praxis versagen

Was Reasoning-Modelle eigentlich leisten sollen

Drei Leistungsklassen und der plötzliche Absturz

Halluzinationen als Kehrseite des „Reasonings“

Teure Illusion? Die Kostenfrage

Grenzen der Untersuchung und offene Fragen

Was heißt das für die Praxis?

Ausblick

Newsletter abonnieren

Wie hat dir dieser Artikel gefallen?

Teilen

Ähnliche Artikel

Die Fankultur auf AO3 befindet sich im offenen Konflikt mit generativer KI

Google setzt bei neuen Smart Speakern auf Gemini-Integration trotz technischer Hürden

Tech-Riesen verfehlen ihre Nachhaltigkeitsziele durch massiven KI-Energiehunger