Finanzämter: BfDI sieht KI-Training mit echten Steuerdaten kritisch
Die Debatte um KI und Datenschutz gewinnt mit Blick auf die öffentlichen Finanzen neue Schärfe. Während Behörden an Automatisierung und „smarteren“ Auswertungsprozessen arbeiten, rückt die Frage nach der Nutzung echter Steuerdaten in den Mittelpunkt. Die Bundesdatenschutzbeauftragte bewertet KI-Training mit realen Steuerakten besonders kritisch – vor allem wegen des Risikos einer Memorisierung. Damit wird deutlich: Nicht nur die Frage „Dürfen Daten genutzt werden?“, sondern auch „Wie können Daten durch das Modell zurück in die reale Welt gelangen?“ entscheidet über die Zulässigkeit.
Warum echte Steuerdaten für KI ein besonderes Risiko darstellen
Steuerdaten gelten in Deutschland als besonders schützenswert, weil sie eng mit der wirtschaftlichen Leistungsfähigkeit, Lebensumständen und weiteren persönlichen Merkmalen verknüpft sind. Genau hier liegt die technische Kerngefahr: KI-Modelle können bei entsprechender Trainingsauslegung Informationen so stark verinnerlichen, dass sie später – unter ungünstigen Bedingungen – aus dem Modell heraus wiederverwendet oder nahezu wortwörtlich rekonstruiert werden. Das Konzept dahinter wird in der Praxis häufig als „Memorisierung“ beschrieben.
Wie Golem.de berichtet, richtet sich die Kritik der Datenschutzaufsicht explizit gegen KI-Training mit echten Steuerdaten. Die BfDI argumentiert dabei nicht abstrakt, sondern verweist auf das konkrete Muster, das in vielen KI-Settings auftreten kann: Daten werden nicht nur generalisiert, sondern können in seltenen Fällen so „haften“, dass sie bei bestimmten Abfragen wieder sichtbar werden.
Memorisierung ist mehr als ein theoretisches Problem
Auch wenn moderne KI-Trainingsverfahren und Regularisierungstechniken Memorisierung reduzieren sollen, bleibt das Restrisiko. Für den öffentlichen Sektor ist dieses Risiko besonders schwer zu akzeptieren: Die Folgen eines Datenlecks können nicht nur einzelne Personen betreffen, sondern Vertrauen in Behördenprozesse dauerhaft beschädigen.
- Hohe Sensibilität: Steuerdaten sind personenbezogene Massendaten mit potenziell weitreichenden Konsequenzen.
- Unkontrollierte Rekonstruktion: Bestimmte Prompt- oder Abfrage-Strategien können Informationsauszüge begünstigen.
- Prozessrisiko statt nur Modellrisiko: Selbst wenn das Modell „eigentlich“ nicht ausgeben soll, können Randfälle auftreten.
Welche Alternative Behörden statt „echtem Training“ prüfen müssen
In der Praxis steht Behörden häufig nicht das „Ob“ im Vordergrund, sondern das „Wie“. Die Kritik an echtem Training mit echten Steuerdaten bedeutet nicht zwangsläufig, dass KI in der Finanzverwaltung grundsätzlich ausgeschlossen ist. Stattdessen stellt sich die Frage nach datenschutzkonformen Entwicklungs- und Nutzungswegen.
Eine viel diskutierte Richtung sind Ansätze, bei denen das Modell nicht auf echten personenbezogenen Rohdaten trainiert wird, sondern mit stärker kontrollierten Datenbeständen arbeitet. Dazu zählen zum Beispiel synthetische Datensätze, Anonymisierung, strenge Zugriffskontrollen oder die Nutzung von Modellen, die nicht mit steuerlichen Individualdaten als Trainingsmaterial befüllt werden. Parallel rückt die Dokumentation in den Vordergrund: Behörden müssen nachvollziehbar machen, welche Daten zu welchem Zweck verwendet werden und welche Schutzmaßnahmen greifen.
Datenschutzkonforme Pfade in der Umsetzung
- Privacy-by-Design: Datenschutz wird früh im Prozess berücksichtigt, nicht als nachträgliche Pflicht.
- Kontrollierte Datenverwendung: Keine unbeschränkte Nutzung echter Steuerdaten über Trainingspipelines hinweg.
- Evaluierung auf Memorisierungsrisiken: Tests und Sicherheitsüberprüfungen, die die Möglichkeit der Informationsrückgewinnung adressieren.
- Transparente Governance: Klare Verantwortlichkeiten und dokumentierte Entscheidungen.
Für die KI-Branche bedeutet das: Datenschutz ist hier nicht nur Compliance-Text, sondern wird zu einem technischen Entwicklungsparameter.
Einordnung: KI-Regulierung und Vertrauen im öffentlichen Sektor
Die aktuelle Debatte fällt in eine Phase, in der KI in Europa immer stärker reguliert wird – und gleichzeitig in der Praxis schnell in Arbeitsabläufe vordringt. Wenn staatliche Stellen KI einsetzen, sind die Erwartungen an Sicherheits- und Datenschutzstandards besonders hoch, weil die Entscheidungslogik indirekt Auswirkungen auf Bürgerinnen und Bürger haben kann.
Gleichzeitig zeigt die allgemeine KI-Landschaft, wie dynamisch das Thema ist: Während sich etwa Forschung und Medien intensiver mit Risiken durch KI-Systeme und deren Interaktionsmuster befassen, bleibt der Datenschutz eine der zentralen „Härtelinsen“ für den produktiven Einsatz. In diesem Kontext ist die Warnung der Datenschutzaufsicht ein Signal, dass technische Fortschritte nicht automatisch mit einem Anstieg der Datennutzung einhergehen dürfen.
Auch unabhängig von Steuerdaten ist die Frage, wie KI mit sensiblen Informationen umgeht, in der Öffentlichkeit präsent. So betont heise.de im Umfeld von KI-Interaktionen regelmäßig, dass Kontext und Schutzbedarfe entscheidend sind – vom Modellverhalten bis zur Art, wie Daten oder Bedürfnisse ausgenutzt werden können.
Für Behörden heißt das: Vertrauen entsteht nicht allein durch „richtige“ Modelle, sondern durch kontrollierte Trainings- und Betriebsbedingungen, die auch im Fehlerfall robuste Grenzen setzen.
Was die nächste Phase für Finanzämter bedeutet
Die öffentliche Kritik wird voraussichtlich dazu führen, dass Projekte genauer zwischen Modelltraining, Modellnutzung und Datenpipeline-Aufbereitung trennen. Damit steigt der Druck auf Beschaffung, technische Architektur und Datenschutz-Folgenabschätzungen. Gleichzeitig kann der öffentliche Sektor hier eine Vorbildrolle einnehmen, weil klare Leitplanken für andere Branchen als Orientierung dienen.
- Mehr Sicherheitsanforderungen: Modelle müssen auf Rückgewinnungs- und Memorisierungsrisiken geprüft werden.
- Mehr Datenminimierung: Je weniger personenbezogene Originaldaten im Training landen, desto einfacher wird die Risikoabwägung.
- Mehr Nachweisführung: Dokumentation und Audits werden wichtiger als reine Modellleistung.
Unterm Strich steht die KI-Branche vor einer grundlegenden Herausforderung: Der Nutzen von KI steigt oft dort, wo Daten reichhaltiger werden. Doch gerade bei sehr sensiblen Datentypen wie Steuerdaten muss der Sicherheitsgewinn stets gegen das Risiko abgewogen werden, dass aus „Lernen“ ungewolltes „Wiedergeben“ wird.
