Dokumentation

Alles, was Sie über SafeAiRedact wissen müssen — vom ersten Upload bis zur On-Premise-Installation.

Überblick

Self-hosted, DSGVO-konforme PDF-Schwärzung mit KI-Unterstützung. Ihre Dokumente verlassen Ihre Infrastruktur zu keinem Zeitpunkt.

DSGVO-konformAlle Verarbeitungsschritte laufen auf Ihren eigenen Servern. Keine Cloud-Abhängigkeiten, keine Datenübertragung an Dritte.
Self-HostedDeployment On-Premise per Docker. Sie behalten die volle Kontrolle über Infrastruktur und Daten.
Dreistufige KIPII-Erkennung, projektweite Prompts und dokumentspezifische Prompts greifen kombiniert — jede Schicht erfasst, was die vorherige übersieht.
OCR integriertGescannte Seiten werden automatisch digitalisiert. Text in Bilddokumenten wird erkennbar und schwärzbar.

Dokument-Workflow

Jedes Dokument durchläuft nach dem Upload einen klar definierten Workflow. Statusübergänge werden protokolliert und sind nachvollziehbar. Die Dokumentenliste ist nach letzter Änderung sortiert; ein Klick auf eine Zeile öffnet den Editor.

W
WartendHochgeladene PDFs werden in eine Verarbeitungswarteschlange eingereiht. Download und OCR laufen für mehrere Dokumente gleichzeitig. Sobald die Verarbeitung abgeschlossen ist, wechselt der Status auf Neu.
N
NeuVerarbeitung abgeschlossen. Das Dokument ist für die Zuweisung und Schwärzung bereit. OCR wurde für gescannte PDFs bereits ausgeführt.
I
In BearbeitungDie KI-Erkennung wurde gestartet oder ein Benutzer prüft die Schwärzungen aktiv. Das Dokument wird gerade bearbeitet.
Z
Zur PrüfungSchwärzungen sind abgeschlossen. Das Dokument wartet auf die Prüfung durch eine zweite Person (Vier-Augen-Prinzip).
G
GeprüftEin Prüfer hat alle Schwärzungen freigegeben. Das Dokument kann jetzt mit dauerhaft angewendeter Schwärzung exportiert werden.

Schlägt die Verarbeitung fehl, wird das Dokument als Fehlgeschlagen markiert und kann aus der Liste oder dem Editor heraus erneut verarbeitet werden.

KI-Erkennung — drei Schichten

SafeAiRedact kombiniert drei Erkennungsschichten. Jede Schicht erhöht die Treffergenauigkeit, und alle drei arbeiten bei jedem Dokument zusammen.

1. PII-ErkennungAutomatische Erkennung personenbezogener Daten: Namen, Adressen, Telefonnummern, E-Mail-Adressen, IBANs, Geburtsdaten und mehr. Funktioniert ohne Konfiguration sofort nach der Installation.
2. Projekt-PromptsEigene KI-Anweisungen, die für alle Dokumente eines Projekts gelten. Definieren Sie branchenspezifische Begriffe, interne Richtlinien oder Fachvokabular, das immer erkannt werden soll.
3. Dokument-PromptsDokumentspezifische KI-Anweisungen für Sonderfälle. Überschreiben oder erweitern Sie die Projektregeln für einzelne Dokumente, die besondere Behandlung erfordern.

Zusammenspiel der Schichten: PII-Erkennung erfasst Standard-Personendaten. Projekt-Prompts ergänzen domänenspezifische Muster. Dokument-Prompts decken Sonderfälle ab. Alle Ergebnisse werden zusammengeführt, dedupliziert und dann zur Prüfung angezeigt.

Custom Detectors

Trainieren Sie eigene Erkennungsmodelle für domänenspezifische Muster, die über Standard-PII-Kategorien hinausgehen. Custom Detectors erkennen jedes Muster, das einer Regel folgt — Kontonummern, Aktenzeichen, Steuernummern oder interne Kennzeichen.

Musterbasiertes TrainingDefinieren Sie Entitätstypen mit Beispielwerten und Beschreibungen. Das System lernt das zugrundeliegende Muster und wendet es auf alle Dokumente im zugewiesenen Projekt an.
VorlagenbibliothekStarten Sie mit vorgefertigten Vorlagen für gängige deutsche Muster — Adressen, Geburtsdaten, IBANs, Kennzeichen, Steuernummern und mehr. Vorlagen lassen sich anpassen und erweitern.
ProjektzuweisungWeisen Sie Detektoren einzelnen Projekten zu. Jedes Projekt kann mehrere Custom Detectors aktiv haben, parallel zur Standard-PII-Erkennung und den Prompt-Schichten.
Aktivierung und VerwaltungAktivieren oder deaktivieren Sie einzelne Detektoren pro Projekt. Sehen Sie Status, Sprache und Trainingszustand auf einen Blick. Neue Detektoren erstellen oder bestehende zuweisen — beides geht aus den Projekteinstellungen.

OCR-Verarbeitung

Gescannte PDFs und bildbasierte Dokumente werden vor der Schwärzung automatisch digitalisiert.

Automatische OCRDokumente werden per OCR verarbeitet. Das Ergebnis ist strukturiertes Markdown, das Tabellen, Überschriften und Formatierungen erhält.
Markdown pro SeiteDie OCR-Ausgabe wird seitenweise als Markdown gespeichert. Sie können die Rohausgabe einsehen und so nachvollziehen, was vor der Schwärzung extrahiert wurde.
KoordinatenmappingEin PDF-Worker ordnet Textpositionen präzisen Pixelkoordinaten auf jeder Seite zu, damit Schwärzungsrahmen korrekt platziert werden.
Fuzzy MatchingDas System gleicht Abweichungen zwischen OCR-Engines per Fuzzy Matching ab und stellt sicher, dass Schwärzungen auf dem richtigen Text landen.

SharePoint-Import

Importieren Sie Dokumente direkt aus Microsoft SharePoint in SafeAiRedact — ohne manuellen Download und erneuten Upload.

SharePoint-Sites durchsuchenVerbinden Sie sich mit Ihrem Microsoft-365-Tenant und navigieren Sie in der SafeAiRedact-Oberfläche durch verfügbare SharePoint-Sites, Dokumentbibliotheken und Ordner.
Gezielter ImportNavigieren Sie durch die Ordnerstruktur und wählen Sie einzelne Dateien oder ganze Ordner für den Import aus. Nur PDF-Dateien werden importiert; andere Dateitypen werden automatisch herausgefiltert.
Automatische VerarbeitungImportierte Dokumente durchlaufen den gleichen Workflow wie manuell hochgeladene Dateien: Upload in Azure Blob Storage, anschließend OCR-Verarbeitung.
Sichere AuthentifizierungDer SharePoint-Zugriff erfolgt über die Microsoft-Anmeldedaten des eingeloggten Benutzers per OAuth-On-behalf-of-Flow. Keine Dienstkonten, keine gespeicherten Passwörter.

Prüfung und Freigabe

Jede Schwärzung wird vor der endgültigen Anwendung geprüft. Der Editor zeigt Original, Vorschau und Aktionsbereich nebeneinander in drei Spalten.

Dreispaltiger EditorOriginal-PDF, geschwärztes Vorschaubild mit Overlays und das Aktionspanel — alles nebeneinander. Seitennavigation, Zoom und Einzelansicht jeder Schwärzung sind integriert.
Ausblenden, Anzeigen, RückgängigPrüfen Sie KI-Vorschläge einzeln, seitenweise oder alle auf einmal. Blenden Sie Text aus, der geschwärzt werden soll, zeigen Sie Falschpositive wieder an oder machen Sie Entscheidungen rückgängig — jeder Eintrag lässt sich jederzeit zwischen Vorschlag, Ausgeblendet und Angezeigt umschalten.
Manuelle SchwärzungZeichnen Sie eigene Schwärzungsrahmen direkt auf das Dokument, wenn die KI etwas übersehen hat. Manuelle Schwärzungen werden mit der Kennzeichnung 'Manuell' versehen.
Vier-Augen-PrinzipNach der ersten Schwärzung wechselt das Dokument in den Status 'Zur Prüfung'. Eine zweite Person muss prüfen und freigeben, bevor der Export möglich ist.
ZIP-Download für mehrere DokumenteWählen Sie mehrere Dokumente aus der Liste und laden Sie sie als einzelnes ZIP-Archiv herunter. Geschwärzte Versionen werden bevorzugt; falls nicht vorhanden, werden die Originale eingeschlossen.

Audit-Trail

Jede Aktion wird protokolliert. SafeAiRedact zeichnet vollständig auf, wer was wann getan hat — notwendig für Compliance-Nachweise und interne Prüfungen.

Vollständiger VerlaufAlle Dokumentaktionen werden erfasst: Uploads, Statusänderungen, Schwärzungsbearbeitungen, Prüfungen, Exporte und Zuweisungen.
DSGVO und ComplianceDas Audit-Log liefert den Nachweis, den Datenschutzvorschriften und interne Compliance-Richtlinien fordern.
CSV-ExportLaden Sie das vollständige Audit-Log als CSV-Datei herunter — für die Archivierung, externe Prüfungen oder die Anbindung an andere Compliance-Tools.
KonfigurierbarAudit-Logging lässt sich pro Projekt aktivieren oder deaktivieren. Ist es von der Plattform vorgeschrieben, ist der Schalter gesperrt und kann nicht deaktiviert werden.

Benutzerverwaltung

SafeAiRedact unterstützt mandantenfähige Projekte mit rollenbasierter Zugriffskontrolle, Dokumentzuweisung und Benachrichtigungen.

RollenJedes Projekt hat Admins und Mitglieder. Admins verwalten Einstellungen, Prompts, Wortlisten und können Dokumente exportieren. Mitglieder können zugewiesene Dokumente einsehen und schwärzen.
DokumentzuweisungWeisen Sie Dokumente bestimmten Benutzern zur Bearbeitung zu. Zugewiesene Benutzer werden benachrichtigt und können ihr Dashboard nach eigenen Aufgaben filtern.
ProjekteJedes Projekt ist ein eigenständiger Arbeitsbereich mit eigenen Dokumenten, Einstellungen, Prompts und Wortlisten. Benutzer können mehreren Projekten angehören.
BenachrichtigungenBenutzer erhalten In-App-Benachrichtigungen (und optional per E-Mail), wenn Dokumente zugewiesen werden, zur Prüfung bereitstehen, zurückgegeben oder freigegeben werden. Einstellungen sind pro Kanal konfigurierbar.

Projekteinstellungen

Jedes Projekt hat ein eigenes Einstellungspanel. Admins können Projektname, Mitglieder, Wortlisten, KI-Prompts, Audit-Logging und weitere Optionen konfigurieren.

AllgemeinProjektlogo hochladen und Projektname ändern. Der URL-Slug wird automatisch aktualisiert, wenn der Name geändert wird.
MitgliederNeue Mitglieder per E-Mail einladen und Rollen zuweisen (Mitglied, Admin, Eigentümer). Rollen ändern, Mitglieder entfernen oder ausstehende Einladungen stornieren.
WortlistenVerwalten Sie eine Sperrliste (Begriffe, die immer geschwärzt werden) und eine Freigabeliste (Begriffe, die nie geschwärzt werden). Diese Listen überschreiben die KI-Erkennungsergebnisse.
Projekt-PromptDefinieren Sie einen eigenen KI-Prompt, der für alle Dokumente im Projekt gilt. Geeignet für branchenspezifische Begriffe, interne Richtlinien oder Fachvokabular.
PII-ErkennungKonfigurieren Sie die Azure-AI-Language-PII-Erkennung: Modellversion, Domäne (z. B. Healthcare/PHI), Standard-Entitätskategorien, Mindestkonfidenz und Dokumentsprache. Einstellbar in den Projekteinstellungen unter PII-Erkennung.
Audit-LogVollständigen Audit-Trail des Projekts einsehen, durchsuchen und exportieren. Audit-Logging ein- oder ausschalten (sofern nicht von der Plattform vorgeschrieben).
Custom DetectorsCustom-Erkennungsmodelle für das Projekt zuweisen, erstellen und verwalten. Detektoren auf domänenspezifische Muster wie Aktenzeichen oder Steuernummern trainieren.
GefahrenzoneDas Projekt und alle zugehörigen Daten dauerhaft löschen. Diese Aktion ist unwiderruflich und auf Projekt-Admins beschränkt.

Admin-Panel

Systemadministratoren haben Zugriff auf ein globales Admin-Panel zur Verwaltung aller Benutzer und Projekte auf der Plattform.

BenutzerverwaltungAlle Benutzer suchen und durchsuchen. Admin-Rollen vergeben oder entziehen, Verifizierungs-E-Mails erneut senden, Benutzer zu Debugging-Zwecken imitieren oder Konten löschen.
ProjektverwaltungAlle Projekte einsehen und verwalten. Projektnamen bearbeiten, Mitglieder verwalten, Benutzer einladen oder Projekte löschen. Neue Projekte lassen sich direkt aus dem Admin-Panel erstellen.

Kontoeinstellungen (pro Benutzer)

ProfilAvatar, Anzeigename, E-Mail-Adresse und Oberflächensprache (Deutsch / Englisch).
SicherheitPasswortverwaltung, verknüpfte Konten (Microsoft SSO), Passkeys, Zwei-Faktor-Authentifizierung und aktive Sitzungen.
BenachrichtigungenIn-App- und E-Mail-Benachrichtigungen pro Ereignistyp aktivieren oder deaktivieren: Dokument zugewiesen, zur Prüfung bereit, zurückgegeben oder freigegeben.
GefahrenzoneBenutzerkonto und alle zugehörigen Daten dauerhaft löschen.

Microsoft SSO

SafeAiRedact ist mit Microsoft Entra ID (Azure AD) für Single Sign-On integriert. Benutzer melden sich mit ihren bestehenden Microsoft-Konten an.

Azure-AD-IntegrationKonfigurieren Sie Tenant-ID, Client-ID und Client-Secret. Die Authentifizierung läuft über den Standard-Microsoft-OAuth-Flow.
Automatische KontoverknüpfungWenn sich ein Benutzer mit Microsoft anmeldet, wird sein Konto automatisch verknüpft, falls bereits ein Konto mit derselben E-Mail-Adresse existiert. Microsoft ist als vertrauenswürdiger Anbieter konfiguriert.

Installation

SafeAiRedact wird On-Premise per Docker installiert. Für den vollständigen Betrieb werden die folgenden Azure-Dienste benötigt.

Auf der Setup-Seite finden Sie kopierfertige Azure-CLI-Befehle, Mac-/Windows-Varianten und alle Umgebungsvariablen. Für das Deployment bauen Sie Docker-Images und übertragen sie in die Azure Container Registry, anschließend starten Sie die Anwendung auf Azure Container Apps.

Docker und Azure Container RegistryImages bauen, in die Azure Container Registry (ACR) übertragen und auf Azure Container Apps deployen. Für die lokale Entwicklung Docker Compose verwenden, in der Produktion aus der ACR starten.
Azure PostgreSQLEine PostgreSQL-Datenbank (Azure Database for PostgreSQL oder selbst gehostet) speichert alle Anwendungsdaten: Dokumente, Schwärzungen, Benutzer und Audit-Logs.
Azure Blob StoragePDF-Dateien (Originale und geschwärzte Versionen) werden in Azure Blob Storage abgelegt. Signed URLs ermöglichen sicheren, zeitlich begrenzten Zugriff.
Azure AI ServicesPII-Erkennung läuft über Azure AI Language. Prompt-basierte Erkennung verwendet Azure OpenAI. Beide Dienste laufen innerhalb Ihres Azure-Abonnements.

Verwendete Technologien

Next.js und ReactModernes Web-Framework mit serverseitigem Rendering
TypeScriptDurchgängige Typsicherheit über den gesamten Stack
Microsoft Entra IDEnterprise-SSO via Azure-AD-OAuth
Azure AI und OpenAIPII-Erkennung und prompt-basierte KI-Schwärzung
Azure Blob StorageSichere Dokumentablage mit Signed URLs
PostgreSQLRelationale Datenbank für alle Anwendungsdaten
OCR-EngineAutomatische Textextraktion aus gescannten Dokumenten
DockerContainer-basiertes Deployment für einfache On-Premise-Installation