Leitfaden

Elina Lesyk
2. April 2024
Anonymisierung für KI in Steuerkanzleien – ohne Black Box
Pragmatischer Leitfaden für wirksame Anonymisierung und Re‑Identifikationsschutz.
Anonymisierung ist kein Schwärzen von Feldern. Sie muss technisch nachvollziehbar, dokumentiert und überprüfbar sein.
Aus Gesprächen in Kanzleien höre ich oft: „Wir tun die schwarzen Kästchen drauf.“ Das ist nur bei echten Scans hilfreich. Bei strukturierten Daten ist es wirkungslos – die Informationen bleiben im Text oder in Metadaten erhalten.
Problem
Viele Anonymisierungen sind unzureichend und erzeugen ein falsches Sicherheitsgefühl.
Lösung
Transparente Regeln plus technische Prüfschritte verhindern Re‑Identifikation.
Für wen?
Kanzleien, die KI einsetzen und Daten rechtssicher anonymisieren müssen.
So funktioniert es
- •Datenfelder mit Identifikationsrisiko erfassen.
- •Direkte Identifier entfernen, indirekte verallgemeinern.
- •Re‑Identifikationsrisiko testen.
- •Anonymisierungslogik dokumentieren und auditierbar machen.
Was funktioniert
Anonymisierung funktioniert, wenn sie systematisch ist: direkte Identifier entfernen, indirekte aggregieren und konsistent dokumentieren.
- •Namen, Steuernummern, IBANs entfernen
- •Beträge und Zeiträume in Klassen zusammenfassen
- •Freitext mit personenbezogenen Details bereinigen
Was nicht funktioniert
Schwarze Kästchen über Text sind nur bei echten Bild‑Scans hilfreich. In maschinenlesbaren Daten bleiben Inhalte erhalten – oft sogar in Metadaten.
Warum Re‑Identifikation unterschätzt wird
Auch ohne Namen können Kombinationen aus Betrag, Zeitraum und Kontext eine Person erkennbar machen. Anonymisierung ist deshalb immer eine Risiko‑Reduktion, kein absoluter Zustand.
Prüfbar statt ‚Black Box'
Eine Kanzlei sollte jederzeit erklären können, warum ein Datensatz als anonym gilt. Das braucht Regeln, Tests und klare Verantwortung.
Konkrete Tools für Anonymisierung
Diese Tools können bei der Anonymisierung helfen (alle DSGVO‑konform einsetzbar):
- •Microsoft Presidio: Open‑Source, lokal installierbar, erkennt 50+ Entitätstypen (Namen, Adressen, IBANs)
- •spaCy NER: Python‑Bibliothek für Named Entity Recognition, gut für deutsche Texte
- •Regex‑Patterns: Für strukturierte Daten wie Steuernummern (DE[0-9]{11}), IBANs, Telefonnummern
- •DATEV‑Export mit Feldselektion: Nur benötigte Spalten exportieren, Rest weglassen
- •Pseudonymisierungs‑Tabelle: Excel/Datenbank mit Zuordnung Original → Pseudonym (getrennt aufbewahren)
Praxis‑Workflow für Kanzleien
So könnte Anonymisierung im Alltag aussehen:
- •1. Rohdaten aus DATEV exportieren (nur relevante Felder)
- •2. Presidio/spaCy über Text laufen lassen (automatisch)
- •3. Ergebnis manuell prüfen (Stichprobe: 10%)
- •4. Anonymisierte Daten an KI‑Tool übergeben
- •5. Dokumentation: Was wurde wann wie anonymisiert?
FAQ
Reicht Maskieren einzelner Felder?
Meist nicht. Kombinationen von Feldern können weiterhin identifizieren.
Wie überprüfe ich Anonymisierung?
Mit Stichproben, Re‑Identifikations‑Tests und dokumentierten Regeln.
Anonymisierung sauber aufsetzen?
Ich unterstütze Sie bei einem pragmatischen, prüfbaren Anonymisierungs‑Konzept für KI‑Workflows.
30-Minuten-Gespräch buchenVerwandte Leitfäden
Lokale vs. Cloud‑LLMs für Steuerkanzleien
Wann lokale LLMs sinnvoll sind, wann Cloud‑LLMs reichen – inkl. Kanzlei‑Checkliste.
Was darf in ChatGPT? Leitfaden für Steuerkanzleien
Praxisregeln für Kanzleien: Was in ChatGPT erlaubt ist und wie Risiken vermieden werden.
KI-Compliance FAQ: Der rechtliche Rahmen 2026
Zwischen Berufsrecht und Algorithmen: Die 7 kritischsten Fragen zum rechtssicheren Einsatz von KI in der Kanzlei.