Revolutionäre KI-Architektur: 100x schnelleres Reasoning als LLMs mit minimalen Trainingsdaten

Ein Forschungsteam aus Singapur stellt die Zukunft der Künstlichen Intelligenz auf den Kopf: Mit einer neuen KI-Architektur namens Hierarchical Reasoning Model (HRM) erreichen sie 100-fach schnelleres logisches Schlussfolgern als traditionelle Large Language Models. Der Clou: Die revolutionäre Technologie benötigt nur 1.000 Trainingsbeispiele statt Millionen von Datensätzen. Diese Effizienz könnte den Weg für eine neue Generation von KI-Systemen ebnen, die mit weniger Daten und Rechenleistung komplexe Probleme lösen.
Das Startup Sapient Intelligence hat mit ihrem Hierarchical Reasoning Model eine Architektur entwickelt, die sich fundamental von bestehenden Ansätzen unterscheidet. Während herkömmliche LLMs auf das sogenannte Chain-of-Thought-Reasoning setzen und dabei explizit ihre „Denkschritte“ in Text formulieren, arbeitet HRM mit latenter Logik im internen Repräsentationsraum. Diese Methode orientiert sich am menschlichen Gehirn, das ebenfalls komplexe Gedankenketten effizient ohne ständige sprachliche Übersetzung verarbeitet.
Die neue KI-Architektur demonstriert ihre Überlegenheit eindrucksvoll in praktischen Tests. Auf dem anspruchsvollen ARC-AGI-Benchmark erreichte das nur 27 Millionen Parameter große HRM-Modell eine Genauigkeit von 40,3 Prozent. Zum Vergleich: OpenAIs deutlich größeres o3-mini-high Modell schaffte lediglich 34,5 Prozent, während Claude 3.7 Sonnet bei 21,2 Prozent landete. Bei extrem schwierigen Sudoku-Rätseln und komplexen Labyrinth-Aufgaben versagten führende CoT-basierte Modelle vollständig mit null Prozent Erfolgsquote, während HRM nahezu perfekte Ergebnisse erzielte.
Die praktischen Auswirkungen dieser Durchbruch-Technologie gehen weit über akademische Benchmarks hinaus. Guan Wang, Gründer und CEO von Sapient Intelligence, erklärt: „Spezialisierte Reasoning-Engines wie HRM bieten im Vergleich zu großen, kostspieligen und latenzintensiven API-basierten Modellen eine vielversprechendere Alternative für bestimmte komplexe Reasoning-Aufgaben.“ Das Training für professionelle Sudoku-Aufgaben dauert nur etwa zwei GPU-Stunden, während komplexe ARC-AGI-Benchmarks zwischen 50 und 200 GPU-Stunden benötigen – ein Bruchteil der Ressourcen herkömmlicher Foundation Models.
We are sharing the code openly so everyone can build on it. ❤️ https://t.co/l2dxEB2FFn
— Sapient Intelligence (@Sapient_Int) July 22, 2025
Warum Chain-of-Thought-Reasoning an seine Grenzen stößt
Aktuelle Large Language Models verlassen sich hauptsächlich auf Chain-of-Thought-Prompting, um komplexe Probleme zu lösen. Dabei zerlegen sie Aufgaben in textbasierte Zwischenschritte und „denken laut“, während sie zur Lösung gelangen. Doch diese Methode hat fundamentale Schwächen, wie die Sapient-Forscher in ihrer Studie darlegen. CoT-Reasoning sei „ein Krückstock, keine zufriedenstellende Lösung“, da es auf fragile, menschlich definierte Problemzerlegungen angewiesen ist, bei denen ein einziger Fehltritt oder eine falsche Reihenfolge den gesamten Denkprozess zum Scheitern bringen kann.
Diese Abhängigkeit von expliziter Sprachgenerierung bindet das logische Schlussfolgern des Modells an die Token-Ebene und erfordert massive Mengen an Trainingsdaten. Gleichzeitig produziert sie lange, langsame Antworten und übersieht die Art des „latenten Reasonings“, das intern ohne explizite sprachliche Artikulation stattfindet. Daten-effiziente KI-Systeme brauchen einen grundlegend anderen Ansatz, um diese Anforderungen zu minimieren.
Vom menschlichen Gehirn inspirierte Architektur
Das Hierarchical Reasoning Model basiert auf neurowissenschaftlichen Erkenntnissen über die Funktionsweise des menschlichen Gehirns. Statt wie herkömmliche Deep Learning-Modelle einfach mehr Schichten zu stapeln – was oft zu dem Problem der verschwindenden Gradienten führt – nutzt HRM eine hierarchische Struktur mit zwei gekoppelten, rekurrenten Modulen. Das High-Level-Modul (H) übernimmt langsame, abstrakte Planung, während das Low-Level-Modul (L) schnelle, detaillierte Berechnungen durchführt.
Diese Architektur ermöglicht einen Prozess namens „hierarchische Konvergenz“. Das schnelle L-Modul bearbeitet einen Teil des Problems und führt mehrere Schritte aus, bis es eine stabile, lokale Lösung erreicht. An diesem Punkt übernimmt das langsamere H-Modul dieses Ergebnis, aktualisiert seine Gesamtstrategie und gibt dem L-Modul ein neues, verfeinertes Teilproblem zur Bearbeitung. Dieser Ansatz verhindert, dass sich das System in lokalen Optima verfängt, und ermöglicht lange Ketten logischer Schlussfolgerungen mit einer schlanken Modellarchitektur.
Die Forscher beschreiben diesen Prozess als eine Sequenz distinkter, stabiler, verschachtelter Berechnungen, bei der das H-Modul die Gesamtstrategie zur Problemlösung leitet und das L-Modul die intensive Suche oder Verfeinerung für jeden Schritt ausführt. Diese verschachtelte Schleifenstruktur erlaubt es dem Modell, tief in seinem latenten Raum zu schlussfolgern, ohne lange CoT-Prompts oder riesige Datenmengen zu benötigen.
Was macht HRM so effizient? Die drei Schlüsselvorteile
Drastisch reduzierter Datenbedarf: Während traditionelle LLMs Millionen oder Milliarden von Trainingsbeispielen benötigen, erreicht HRM Spitzenleistungen mit nur 1.000 Beispielen pro Aufgabentyp. Diese Daten-Effizienz macht die Technologie besonders wertvoll für spezialisierte Anwendungsdomänen, in denen große Datensätze nicht verfügbar sind.
Parallelverarbeitung statt sequenzieller Generation: Im Gegensatz zur Token-für-Token-Generierung von CoT-Modellen ermöglicht HRMs parallele Verarbeitung eine geschätzte 100-fache Beschleunigung der Aufgabenlösung. Dies bedeutet niedrigere Inferenz-Latenz und die Möglichkeit, leistungsstarkes Reasoning auf Edge-Geräten auszuführen.
Selbstoptimierung durch Erfahrung: HRM löst nicht nur Probleme, sondern lernt sie besser zu lösen. In Sudoku-Experimenten auf Meisterschaftsniveau benötigte das System mit fortschreitendem Training progressiv weniger Schritte – ähnlich einem Novizen, der zum Experten wird. Diese kontinuierliche Verbesserung unterscheidet HRM von statischen LLM-Ansätzen.
Praktische Anwendungen jenseits von Benchmarks
Die wahre Revolution liegt nicht in Puzzle-Lösungen, sondern in realen Unternehmensanwendungen. CEO Wang empfiehlt, LLMs weiterhin für sprachbasierte oder kreative Aufgaben zu nutzen, aber für „komplexe oder deterministische Probleme“ bietet eine HRM-ähnliche Architektur überlegene Leistung mit weniger Halluzinationen. Besonders bei sequenziellen Problemen mit komplexer Entscheidungsfindung oder Langzeitplanung zeigt sich das Potenzial – etwa in latenz-sensitiven Bereichen wie Embodied AI und Robotik oder datenknappen Domänen wie der wissenschaftlichen Forschung.
Die Kostenersparnis ist beträchtlich. Während das Training großer Foundation Models Tausende von GPU-Stunden und Millionen von Dollars verschlingt, benötigt HRM für professionelle Sudoku-Aufgaben etwa zwei GPU-Stunden und für komplexe ARC-AGI-Benchmarks zwischen 50 und 200 GPU-Stunden. Diese Effizienz öffnet einen Weg zur Lösung spezialisierter Geschäftsprobleme von Logistikoptimierung bis hin zu komplexer Systemdiagnostik, wo sowohl Daten als auch Budget begrenzt sind.
Sapient Intelligence arbeitet bereits daran, HRM von einem spezialisierten Problemlöser zu einem allgemeineren Reasoning-Modul weiterzuentwickeln. Wang kündigte vielversprechende erste Ergebnisse in den Bereichen Gesundheitswesen, Klimaprognosen und Robotik an. Die nächste Generation dieser gehirn-inspirierten Modelle wird sich deutlich von heutigen textbasierten Systemen unterscheiden, insbesondere durch die Integration selbstkorrigierender Fähigkeiten.
Ein Paradigmenwechsel in der KI-Entwicklung
Das Hierarchical Reasoning Model markiert einen Wendepunkt in der KI-Forschung. Statt immer größere Modelle mit mehr Parametern zu entwickeln, zeigt HRM, dass intelligentere, strukturiertere Architekturen der Schlüssel zu effizienterem Reasoning sein können. Die Kombination aus minimalen Datenanforderungen, 100-facher Geschwindigkeitssteigerung und drastisch reduzierten Trainingskosten macht diese Technologie besonders attraktiv für Unternehmen mit begrenzten Ressourcen.
Für die Praxis bedeutet dies eine Demokratisierung fortgeschrittener KI-Fähigkeiten. Kleine und mittlere Unternehmen können erstmals spezialisierte Reasoning-Systeme entwickeln, ohne auf teure API-Dienste großer Tech-Konzerne angewiesen zu sein. Die gehirn-inspirierte Architektur öffnet neue Möglichkeiten für Edge-Computing und Anwendungen in Bereichen mit strengen Latenz-Anforderungen.
Die Governance-Implikationen sind ebenso bedeutsam. Während die KI-Regulierung bisher auf die Kontrolle weniger großer Foundation Models fokussierte, könnte die Verbreitung effizienter, spezialisierter Reasoning-Systeme neue Herausforderungen und Chancen schaffen. Die Zukunft der KI liegt möglicherweise nicht in immer größeren Modellen, sondern in smarteren Architekturen, die das ultimative Reasoning-System – das menschliche Gehirn – als Vorbild nehmen.
