Leitfaden

Von Elina Lesyk

Anonymisierung für KI in Steuerkanzleien – ohne Black Box

Pragmatischer Leitfaden für wirksame Anonymisierung und Re‑Identifikationsschutz.

Anonymisierung ist kein Schwärzen von Feldern. Sie muss technisch nachvollziehbar, dokumentiert und überprüfbar sein.

Aus Gesprächen in Kanzleien höre ich oft: „Wir tun die schwarzen Kästchen drauf.“ Das ist nur bei echten Scans hilfreich. Bei strukturierten Daten ist es wirkungslos – die Informationen bleiben im Text oder in Metadaten erhalten.

Problem

Viele Anonymisierungen sind unzureichend und erzeugen ein falsches Sicherheitsgefühl.

Lösung

Transparente Regeln plus technische Prüfschritte verhindern Re‑Identifikation.

Für wen?

Kanzleien, die KI einsetzen und Daten rechtssicher anonymisieren müssen.

So funktioniert es

  1. Datenfelder mit Identifikationsrisiko erfassen.
  2. Direkte Identifier entfernen, indirekte verallgemeinern.
  3. Re‑Identifikationsrisiko testen.
  4. Anonymisierungslogik dokumentieren und auditierbar machen.

Was funktioniert

Anonymisierung funktioniert, wenn sie systematisch ist: direkte Identifier entfernen, indirekte aggregieren und konsistent dokumentieren.

  • Namen, Steuernummern, IBANs entfernen
  • Beträge und Zeiträume in Klassen zusammenfassen
  • Freitext mit personenbezogenen Details bereinigen

Was nicht funktioniert

Schwarze Kästchen über Text sind nur bei echten Bild‑Scans hilfreich. In maschinenlesbaren Daten bleiben Inhalte erhalten – oft sogar in Metadaten.

Warum Re‑Identifikation unterschätzt wird

Auch ohne Namen können Kombinationen aus Betrag, Zeitraum und Kontext eine Person erkennbar machen. Anonymisierung ist deshalb immer eine Risiko‑Reduktion, kein absoluter Zustand.

Prüfbar statt ‚Black Box'

Eine Kanzlei sollte jederzeit erklären können, warum ein Datensatz als anonym gilt. Das braucht Regeln, Tests und klare Verantwortung.

Konkrete Tools für Anonymisierung

Diese Tools können bei der Anonymisierung helfen (alle DSGVO‑konform einsetzbar):

  • Microsoft Presidio: Open‑Source, lokal installierbar, erkennt 50+ Entitätstypen (Namen, Adressen, IBANs)
  • spaCy NER: Python‑Bibliothek für Named Entity Recognition, gut für deutsche Texte
  • Regex‑Patterns: Für strukturierte Daten wie Steuernummern (DE[0-9]{11}), IBANs, Telefonnummern
  • DATEV‑Export mit Feldselektion: Nur benötigte Spalten exportieren, Rest weglassen
  • Pseudonymisierungs‑Tabelle: Excel/Datenbank mit Zuordnung Original → Pseudonym (getrennt aufbewahren)

Praxis‑Workflow für Kanzleien

So könnte Anonymisierung im Alltag aussehen:

  • 1. Rohdaten aus DATEV exportieren (nur relevante Felder)
  • 2. Presidio/spaCy über Text laufen lassen (automatisch)
  • 3. Ergebnis manuell prüfen (Stichprobe: 10%)
  • 4. Anonymisierte Daten an KI‑Tool übergeben
  • 5. Dokumentation: Was wurde wann wie anonymisiert?

FAQ

Reicht Maskieren einzelner Felder?

Meist nicht. Kombinationen von Feldern können weiterhin identifizieren.

Wie überprüfe ich Anonymisierung?

Mit Stichproben, Re‑Identifikations‑Tests und dokumentierten Regeln.

Anonymisierung sauber aufsetzen?

Ich unterstütze Sie bei einem pragmatischen, prüfbaren Anonymisierungs‑Konzept für KI‑Workflows.

Pilotpartner werden

Verwandte Leitfäden