Leitfaden
Von Elina Lesyk
Anonymisierung für KI in Steuerkanzleien – ohne Black Box
Pragmatischer Leitfaden für wirksame Anonymisierung und Re‑Identifikationsschutz.
Anonymisierung ist kein Schwärzen von Feldern. Sie muss technisch nachvollziehbar, dokumentiert und überprüfbar sein.
Aus Gesprächen in Kanzleien höre ich oft: „Wir tun die schwarzen Kästchen drauf.“ Das ist nur bei echten Scans hilfreich. Bei strukturierten Daten ist es wirkungslos – die Informationen bleiben im Text oder in Metadaten erhalten.
Problem
Viele Anonymisierungen sind unzureichend und erzeugen ein falsches Sicherheitsgefühl.
Lösung
Transparente Regeln plus technische Prüfschritte verhindern Re‑Identifikation.
Für wen?
Kanzleien, die KI einsetzen und Daten rechtssicher anonymisieren müssen.
So funktioniert es
- •Datenfelder mit Identifikationsrisiko erfassen.
- •Direkte Identifier entfernen, indirekte verallgemeinern.
- •Re‑Identifikationsrisiko testen.
- •Anonymisierungslogik dokumentieren und auditierbar machen.
Was funktioniert
Anonymisierung funktioniert, wenn sie systematisch ist: direkte Identifier entfernen, indirekte aggregieren und konsistent dokumentieren.
- •Namen, Steuernummern, IBANs entfernen
- •Beträge und Zeiträume in Klassen zusammenfassen
- •Freitext mit personenbezogenen Details bereinigen
Was nicht funktioniert
Schwarze Kästchen über Text sind nur bei echten Bild‑Scans hilfreich. In maschinenlesbaren Daten bleiben Inhalte erhalten – oft sogar in Metadaten.
Warum Re‑Identifikation unterschätzt wird
Auch ohne Namen können Kombinationen aus Betrag, Zeitraum und Kontext eine Person erkennbar machen. Anonymisierung ist deshalb immer eine Risiko‑Reduktion, kein absoluter Zustand.
Prüfbar statt ‚Black Box'
Eine Kanzlei sollte jederzeit erklären können, warum ein Datensatz als anonym gilt. Das braucht Regeln, Tests und klare Verantwortung.
Konkrete Tools für Anonymisierung
Diese Tools können bei der Anonymisierung helfen (alle DSGVO‑konform einsetzbar):
- •Microsoft Presidio: Open‑Source, lokal installierbar, erkennt 50+ Entitätstypen (Namen, Adressen, IBANs)
- •spaCy NER: Python‑Bibliothek für Named Entity Recognition, gut für deutsche Texte
- •Regex‑Patterns: Für strukturierte Daten wie Steuernummern (DE[0-9]{11}), IBANs, Telefonnummern
- •DATEV‑Export mit Feldselektion: Nur benötigte Spalten exportieren, Rest weglassen
- •Pseudonymisierungs‑Tabelle: Excel/Datenbank mit Zuordnung Original → Pseudonym (getrennt aufbewahren)
Praxis‑Workflow für Kanzleien
So könnte Anonymisierung im Alltag aussehen:
- •1. Rohdaten aus DATEV exportieren (nur relevante Felder)
- •2. Presidio/spaCy über Text laufen lassen (automatisch)
- •3. Ergebnis manuell prüfen (Stichprobe: 10%)
- •4. Anonymisierte Daten an KI‑Tool übergeben
- •5. Dokumentation: Was wurde wann wie anonymisiert?
FAQ
Reicht Maskieren einzelner Felder?
Meist nicht. Kombinationen von Feldern können weiterhin identifizieren.
Wie überprüfe ich Anonymisierung?
Mit Stichproben, Re‑Identifikations‑Tests und dokumentierten Regeln.
Anonymisierung sauber aufsetzen?
Ich unterstütze Sie bei einem pragmatischen, prüfbaren Anonymisierungs‑Konzept für KI‑Workflows.
Pilotpartner werden