Self-Hosted PDF Redaction API
Bereitstellen und Konfigurieren der PDF Redaction API auf Ihrer eigenen Infrastruktur mit Docker
PDF Redaction API: Self-Hosted & Sichere Dokumentenschwärzung
Automatisieren Sie die Entfernung von PII (Personenbezogene Informationen) aus PDF-Dokumenten mit einer leistungsstarken, selbst gehosteten REST-API. Keine Daten verlassen jemals Ihren Server.
Die PDF Redaction API ist eine containerisierte Lösung für Entwickler, die sensible Daten schützen müssen und gleichzeitig die vollständige Kontrolle über die Dokumentenprivatsphäre behalten. Sie ist ideal für GDPR, HIPAA und CCPA-Compliance.
Docker Hub: stabrise/pdf-redaction-api
🚀 Hauptfunktionen
- Automatische Erkennung sensibler Daten: Entfernen Sie automatisch E-Mails, Kreditkartennummern, Steuer-IDs (DNI/NIE), Telefonnummern und andere PII.
- Mehrsprachige OCR-Unterstützung: Integrierte Tesseract OCR mit Unterstützung für Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch und Russisch.
- Tiefensuche & Benutzerdefinierte Regeln: Verwenden Sie vordefinierte und benutzerdefinierte Regeln für erweiterte Schwärzungsmuster.
- Totale Datenprivatsphäre: Im Gegensatz zu cloudbasierten APIs läuft dieses Docker-Image auf Ihrer Infrastruktur (On-Premise). Ihre Dokumente werden niemals in die Cloud hochgeladen.
- RESTful-Architektur: Einfache JSON-basierte API-Integration mit jeder Sprache (Python, JS, Go, PHP, etc.).
- Erweiterte Bildverarbeitung: Enthält ffmpeg und Bildverarbeitungsbibliotheken für die Handhabung komplexer PDF-Strukturen.
🛠 Schnellstart
🚀 Sofortige Installation
Installieren Sie die selbst gehostete PDF Redaction API mit einer der folgenden Methoden:
Option A (curl):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Option B (wget):
/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Docker
Ziehen Sie das Image von Docker Hub und führen Sie die PDF Redaction API auf Ihrem VPS mit Docker aus:
docker run -d -p 8002:8002 \
-e PDF_REDACTION_API_LICENSE=your_key_here \
stabrise/pdf-redaction-api:latestDocker Compose (Empfohlen)
Für ein professionelles Setup mit einem persistenten Volume (am besten für Ihr VPS-Setup):
services:
pdf-api:
image: stabrise/pdf-redaction-api:latest
restart: unless-stopped
ports:
- "8002:8002"
environment:
# Erforderlich: Lizenzschlüssel für den Produktionseinsatz
- PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
# Server-Einstellungen (optional, Standardwerte gezeigt)
- PDF_REDACTION_API_HOST=0.0.0.0
- PDF_REDACTION_API_PORT=8002
- PDF_REDACTION_API_WORKERS_COUNT=1
- PDF_REDACTION_API_ENVIRONMENT=production
- PDF_REDACTION_API_LOG_LEVEL=INFO
# LLM-Einstellungen (optional, für benutzerdefinierten LLM-Provider)
# - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
# - PDF_REDACTION_API_LLM_API_KEY=
# - PDF_REDACTION_API_LLM_API_BASE_URL=
# Verarbeitungslimits (optional, Standardwerte gezeigt)
# - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
# - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
# Optional: Verwenden Sie .env-Datei für die Konfiguration
env_file:
- .env📖 API-Verwendungsbeispiel
Sobald der Container läuft, können Sie ein Dokument schwärzen, indem Sie eine POST-Anfrage an /api/anonymize/pdf/ senden:
curl -X POST http://localhost:8002/api/anonymize/pdf/ \
-H "Content-Type: multipart/form-data" \
-F "file=@document.pdf"Für vollständige Dokumentation besuchen Sie: PDF Redaction API Docs
⚙️ Konfiguration
Die PDF Redaction API kann mit Umgebungsvariablen konfiguriert werden. Wichtige Konfigurationsoptionen:
Erforderlich
- PDF_REDACTION_API_LICENSE: Lizenzschlüssel (erforderlich für den Produktionseinsatz)
Server-Einstellungen (Optional)
- PDF_REDACTION_API_HOST: Server-Host (Standard:
127.0.0.1, verwenden Sie0.0.0.0für Docker) - PDF_REDACTION_API_PORT: Server-Port (Standard:
8002) - PDF_REDACTION_API_WORKERS_COUNT: Anzahl der Worker-Prozesse (Standard:
1) - PDF_REDACTION_API_ENVIRONMENT: Umgebungsmodus (Standard:
production) - PDF_REDACTION_API_LOG_LEVEL: Protokollierungsstufe (Standard:
INFO)
LLM-Einstellungen (Optional)
- PDF_REDACTION_API_LLM_MODEL: LLM-Modellkennung (z.B.
meta-llama/llama-4-scout-17b-16e-instruct) - PDF_REDACTION_API_LLM_API_KEY: API-Schlüssel für LLM-Provider
- PDF_REDACTION_API_LLM_API_BASE_URL: Basis-URL für LLM-API
Verarbeitungslimits (Optional)
- PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Maximale Seiten für PII-Erkennung (Standard:
10) - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Maximale Seiten für Schwärzung (Standard:
10)
🔒 Sicherheit & Compliance
Dieses Image ist für Hochsicherheitsumgebungen konzipiert:
- GDPR/CCPA-Ready: Halten Sie Daten innerhalb Ihrer Gerichtsbarkeit.
- Zustandslose Verarbeitung: Dokumente werden im Speicher oder in temporären Volumes verarbeitet und werden von der API nicht dauerhaft gespeichert.
- Ressourceneffizient: Optimiert für VPS-Bereitstellungen mit geringem Speicheraufwand.
- Mehrsprachige OCR: Unterstützt OCR in 7 Sprachen (Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Russisch) für die internationale Dokumentenverarbeitung.
💳 Lizenz
Ein gültiger API-Schlüssel ist erforderlich, um den Service zu nutzen. Sie können:
- Einen API-Schlüssel unter pdf-redaction.com/apikeys/ generieren
- Ihre Nutzung unter pdf-redaction.com/apikeys/usage/ überprüfen
- Eine kostenlose Testversion oder kommerzielle Lizenz unter pdf-redaction.com/licenses/ erhalten
- Die Lizenz mit der Umgebungsvariable
PDF_REDACTION_API_LICENSEsetzen oder in eine.env-Datei aufnehmen - Das
setup.sh-Skript wird Sie auffordern und die Lizenz an Ihre.env-Datei anhängen, falls sie fehlt