← Zurück zum Blog

Wie das Schwärzen funktioniert: Von der KI-Erkennung bis zur fertigen Redaktion

Upload, OCR, KI-Erkennung, Koordinaten-Mapping und finale Redaktion: So läuft der Schwärzungsprozess technisch ab.

1. Upload und Speicherung

Das PDF wird hochgeladen und in Azure Blob Storage gesichert. Der Dokumentenstatus wechselt zunächst in die Warteschlange. Nach der Verarbeitung steht es als „Neu" zur Bearbeitung bereit.

2. OCR — Text aus dem Dokument extrahieren

Scannerseiten und Bild-PDFs enthalten keinen durchsuchbaren Text. OCR (Optical Character Recognition) erfasst den Inhalt pro Seite als strukturiertes Markdown, inklusive Tabellen und Absätze. Diese Textbasis ist Voraussetzung für die KI-Erkennung.

3. KI-Erkennung — PII und benutzerdefinierte Muster

Die KI scannt den extrahierten Text und identifiziert personenbezogene Daten sowie projektspezifische Muster. Es arbeiten mehrere Ebenen zusammen: PII-Erkennung (Azure AI Language), Projekt-Prompts und Custom Detectors. Die Treffer werden als Textpositionen (Offset im Markdown) gespeichert.

4. Custom Detectors — Vorteile und Anwendungsgebiete

Custom Detectors erweitern die Standard-PII-Erkennung um branchenspezifische Muster wie Aktenzeichen, Steuernummern oder Kundennummern. Sie definieren Entitätstypen mit Beispielen — das System lernt das zugrundeliegende Muster und wendet es automatisch an. Ein großer Vorteil: Jeder Detektor lässt sich pro Projekt zuweisen und bei Bedarf deaktivieren.

Typische Anwendungsgebiete sind Anwaltskanzleien (Aktenzeichen, Mandantennummern), Versicherungen (Vertragsnummern, Schadensnummern), Behörden (Vorgangsnummern) sowie alle Bereiche mit strukturierten, wiederkehrenden Kennzahlen.

5. Pixelkoordinaten — Von Text zu Bounding Boxes

Der PDF-Worker (Python-Service mit PyMuPDF und Tesseract) mappt die erkannten Textstellen auf präzise Pixelkoordinaten im PDF. Mit Fuzzy Matching werden OCR-Unterschiede zwischen verschiedenen Engines ausgeglichen, sodass die Schwärzungen exakt an der richtigen Stelle liegen.

6. Review und finale Schwärzung

Im Editor prüfen Sie alle Vorschläge — bestätigen, ablehnen oder ergänzen manuell. Nach dem Vier-Augen-Prinzip kann ein Zweiter prüfen. Erst danach wird die permanente Schwärzung angewendet: Das PDF wird neu gerendert, die erkannten Bereiche unwiderruflich entfernt und die redigierte Version hochgeladen.

  • Upload → Azure Blob Storage
  • OCR → Markdown pro Seite
  • KI → Text-Offsets (PII, Prompts, Custom Detectors)
  • PDF-Worker → Pixelkoordinaten & Fuzzy Matching
  • Review → Manuell prüfen, bestätigen, exportieren