PDF Redaction

Self-Hosted PDF Redaction API

Bereitstellen und Konfigurieren der PDF Redaction API auf Ihrer eigenen Infrastruktur mit Docker

PDF Redaction API: Self-Hosted & Sichere Dokumentenschwärzung

Automatisieren Sie die Entfernung von PII (Personenbezogene Informationen) aus PDF-Dokumenten mit einer leistungsstarken, selbst gehosteten REST-API. Keine Daten verlassen jemals Ihren Server.

Die PDF Redaction API ist eine containerisierte Lösung für Entwickler, die sensible Daten schützen müssen und gleichzeitig die vollständige Kontrolle über die Dokumentenprivatsphäre behalten. Sie ist ideal für GDPR, HIPAA und CCPA-Compliance.

Docker Hub: stabrise/pdf-redaction-api

🚀 Hauptfunktionen

  • Automatische Erkennung sensibler Daten: Entfernen Sie automatisch E-Mails, Kreditkartennummern, Steuer-IDs (DNI/NIE), Telefonnummern und andere PII.
  • Mehrsprachige OCR-Unterstützung: Integrierte Tesseract OCR mit Unterstützung für Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch und Russisch.
  • Tiefensuche & Benutzerdefinierte Regeln: Verwenden Sie vordefinierte und benutzerdefinierte Regeln für erweiterte Schwärzungsmuster.
  • Totale Datenprivatsphäre: Im Gegensatz zu cloudbasierten APIs läuft dieses Docker-Image auf Ihrer Infrastruktur (On-Premise). Ihre Dokumente werden niemals in die Cloud hochgeladen.
  • RESTful-Architektur: Einfache JSON-basierte API-Integration mit jeder Sprache (Python, JS, Go, PHP, etc.).
  • Erweiterte Bildverarbeitung: Enthält ffmpeg und Bildverarbeitungsbibliotheken für die Handhabung komplexer PDF-Strukturen.

🛠 Schnellstart

🚀 Sofortige Installation

Installieren Sie die selbst gehostete PDF Redaction API mit einer der folgenden Methoden:

Option A (curl):

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Option B (wget):

/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Docker

Ziehen Sie das Image von Docker Hub und führen Sie die PDF Redaction API auf Ihrem VPS mit Docker aus:

docker run -d -p 8002:8002 \
  -e PDF_REDACTION_API_LICENSE=your_key_here \
  stabrise/pdf-redaction-api:latest

Docker Compose (Empfohlen)

Für ein professionelles Setup mit einem persistenten Volume (am besten für Ihr VPS-Setup):

services:
  pdf-api:
    image: stabrise/pdf-redaction-api:latest
    restart: unless-stopped
    ports:
      - "8002:8002"
    environment:
      # Erforderlich: Lizenzschlüssel für den Produktionseinsatz
      - PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
      # Server-Einstellungen (optional, Standardwerte gezeigt)
      - PDF_REDACTION_API_HOST=0.0.0.0
      - PDF_REDACTION_API_PORT=8002
      - PDF_REDACTION_API_WORKERS_COUNT=1
      - PDF_REDACTION_API_ENVIRONMENT=production
      - PDF_REDACTION_API_LOG_LEVEL=INFO
      # LLM-Einstellungen (optional, für benutzerdefinierten LLM-Provider)
      # - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
      # - PDF_REDACTION_API_LLM_API_KEY=
      # - PDF_REDACTION_API_LLM_API_BASE_URL=
      # Verarbeitungslimits (optional, Standardwerte gezeigt)
      # - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
      # - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
    # Optional: Verwenden Sie .env-Datei für die Konfiguration
    env_file:
      - .env

📖 API-Verwendungsbeispiel

Sobald der Container läuft, können Sie ein Dokument schwärzen, indem Sie eine POST-Anfrage an /api/anonymize/pdf/ senden:

curl -X POST http://localhost:8002/api/anonymize/pdf/ \
  -H "Content-Type: multipart/form-data" \
  -F "file=@document.pdf"

Für vollständige Dokumentation besuchen Sie: PDF Redaction API Docs

⚙️ Konfiguration

Die PDF Redaction API kann mit Umgebungsvariablen konfiguriert werden. Wichtige Konfigurationsoptionen:

Erforderlich

  • PDF_REDACTION_API_LICENSE: Lizenzschlüssel (erforderlich für den Produktionseinsatz)

Server-Einstellungen (Optional)

  • PDF_REDACTION_API_HOST: Server-Host (Standard: 127.0.0.1, verwenden Sie 0.0.0.0 für Docker)
  • PDF_REDACTION_API_PORT: Server-Port (Standard: 8002)
  • PDF_REDACTION_API_WORKERS_COUNT: Anzahl der Worker-Prozesse (Standard: 1)
  • PDF_REDACTION_API_ENVIRONMENT: Umgebungsmodus (Standard: production)
  • PDF_REDACTION_API_LOG_LEVEL: Protokollierungsstufe (Standard: INFO)

LLM-Einstellungen (Optional)

  • PDF_REDACTION_API_LLM_MODEL: LLM-Modellkennung (z.B. meta-llama/llama-4-scout-17b-16e-instruct)
  • PDF_REDACTION_API_LLM_API_KEY: API-Schlüssel für LLM-Provider
  • PDF_REDACTION_API_LLM_API_BASE_URL: Basis-URL für LLM-API

Verarbeitungslimits (Optional)

  • PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Maximale Seiten für PII-Erkennung (Standard: 10)
  • PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Maximale Seiten für Schwärzung (Standard: 10)

🔒 Sicherheit & Compliance

Dieses Image ist für Hochsicherheitsumgebungen konzipiert:

  • GDPR/CCPA-Ready: Halten Sie Daten innerhalb Ihrer Gerichtsbarkeit.
  • Zustandslose Verarbeitung: Dokumente werden im Speicher oder in temporären Volumes verarbeitet und werden von der API nicht dauerhaft gespeichert.
  • Ressourceneffizient: Optimiert für VPS-Bereitstellungen mit geringem Speicheraufwand.
  • Mehrsprachige OCR: Unterstützt OCR in 7 Sprachen (Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Russisch) für die internationale Dokumentenverarbeitung.

💳 Lizenz

Ein gültiger API-Schlüssel ist erforderlich, um den Service zu nutzen. Sie können:

  • Einen API-Schlüssel unter pdf-redaction.com/apikeys/ generieren
  • Ihre Nutzung unter pdf-redaction.com/apikeys/usage/ überprüfen
  • Eine kostenlose Testversion oder kommerzielle Lizenz unter pdf-redaction.com/licenses/ erhalten
  • Die Lizenz mit der Umgebungsvariable PDF_REDACTION_API_LICENSE setzen oder in eine .env-Datei aufnehmen
  • Das setup.sh-Skript wird Sie auffordern und die Lizenz an Ihre .env-Datei anhängen, falls sie fehlt