PDF Redaction

Self-Hosted PDF Redaction API

Wdróż i skonfiguruj PDF Redaction API we własnej infrastrukturze używając Dockera

PDF Redaction API: Self-Hosted i Bezpieczne Maskowanie Dokumentów

Automatyzuj usuwanie PII (Informacji Umożliwiających Identyfikację Osoby) z dokumentów PDF za pomocą wydajnej, samodzielnie hostowanej API REST. Żadne dane nigdy nie opuszczają Twojego serwera.

PDF Redaction API to rozwiązanie kontenerowe zaprojektowane dla deweloperów, którzy muszą chronić wrażliwe dane, zachowując pełną kontrolę nad prywatnością dokumentów. Idealne do zgodności z GDPR, HIPAA i CCPA.

Docker Hub: stabrise/pdf-redaction-api

🚀 Kluczowe Funkcje

  • Automatyczne Wykrywanie Wrażliwych Danych: Automatycznie usuwaj e-maile, numery kart kredytowych, numery identyfikacji podatkowej (DNI/NIE), numery telefonów i inne PII.
  • Wielojęzyczne Wsparcie OCR: Wbudowany Tesseract OCR z obsługą angielskiego, hiszpańskiego, francuskiego, niemieckiego, włoskiego, portugalskiego i rosyjskiego.
  • Głębokie Wyszukiwanie i Niestandardowe Reguły: Używaj predefiniowanych i niestandardowych reguł dla zaawansowanych wzorców redakcji.
  • Całkowita Prywatność Danych: W przeciwieństwie do API opartych na chmurze, ten obraz Dockera działa w Twojej infrastrukturze (on-premise). Twoje dokumenty nigdy nie są przesyłane do chmury.
  • Architektura RESTful: Prosta integracja API oparta na JSON z dowolnym językiem (Python, JS, Go, PHP, itp.).
  • Zaawansowane Przetwarzanie Obrazów: Zawiera ffmpeg i biblioteki przetwarzania obrazów do obsługi złożonych struktur PDF.

🛠 Szybki Start

🚀 Natychmiastowa Instalacja

Zainstaluj samodzielnie hostowaną PDF Redaction API używając jednej z następujących metod:

Opcja A (curl):

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Opcja B (wget):

/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Docker

Pobierz obraz z Docker Hub i uruchom PDF Redaction API na swoim VPS używając Dockera:

docker run -d -p 8002:8002 \
  -e PDF_REDACTION_API_LICENSE=your_key_here \
  stabrise/pdf-redaction-api:latest

Docker Compose (Zalecane)

Dla profesjonalnej konfiguracji z trwałym wolumenem (najlepsze dla konfiguracji VPS):

services:
  pdf-api:
    image: stabrise/pdf-redaction-api:latest
    restart: unless-stopped
    ports:
      - "8002:8002"
    environment:
      # Wymagane: Klucz licencyjny do użycia produkcyjnego
      - PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
      # Ustawienia serwera (opcjonalne, pokazane wartości domyślne)
      - PDF_REDACTION_API_HOST=0.0.0.0
      - PDF_REDACTION_API_PORT=8002
      - PDF_REDACTION_API_WORKERS_COUNT=1
      - PDF_REDACTION_API_ENVIRONMENT=production
      - PDF_REDACTION_API_LOG_LEVEL=INFO
      # Ustawienia LLM (opcjonalne, dla niestandardowego dostawcy LLM)
      # - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
      # - PDF_REDACTION_API_LLM_API_KEY=
      # - PDF_REDACTION_API_LLM_API_BASE_URL=
      # Limity przetwarzania (opcjonalne, pokazane wartości domyślne)
      # - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
      # - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
    # Opcjonalne: Użyj pliku .env do konfiguracji
    env_file:
      - .env

📖 Przykład Użycia API

Gdy kontener działa, możesz zredagować dokument wysyłając żądanie POST do /api/anonymize/pdf/:

curl -X POST http://localhost:8002/api/anonymize/pdf/ \
  -H "Content-Type: multipart/form-data" \
  -F "file=@document.pdf"

Aby uzyskać pełną dokumentację, odwiedź: PDF Redaction API Docs

⚙️ Konfiguracja

PDF Redaction API można skonfigurować używając zmiennych środowiskowych. Kluczowe opcje konfiguracji:

Wymagane

  • PDF_REDACTION_API_LICENSE: Klucz licencyjny (wymagany do użycia produkcyjnego)

Ustawienia Serwera (Opcjonalne)

  • PDF_REDACTION_API_HOST: Host serwera (domyślnie: 127.0.0.1, użyj 0.0.0.0 dla Dockera)
  • PDF_REDACTION_API_PORT: Port serwera (domyślnie: 8002)
  • PDF_REDACTION_API_WORKERS_COUNT: Liczba procesów roboczych (domyślnie: 1)
  • PDF_REDACTION_API_ENVIRONMENT: Tryb środowiska (domyślnie: production)
  • PDF_REDACTION_API_LOG_LEVEL: Poziom logowania (domyślnie: INFO)

Ustawienia LLM (Opcjonalne)

  • PDF_REDACTION_API_LLM_MODEL: Identyfikator modelu LLM (np. meta-llama/llama-4-scout-17b-16e-instruct)
  • PDF_REDACTION_API_LLM_API_KEY: Klucz API dla dostawcy LLM
  • PDF_REDACTION_API_LLM_API_BASE_URL: Bazowy URL dla API LLM

Limity Przetwarzania (Opcjonalne)

  • PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Maksymalna liczba stron do wykrywania PII (domyślnie: 10)
  • PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Maksymalna liczba stron do redakcji (domyślnie: 10)

🔒 Bezpieczeństwo i Zgodność

Ten obraz jest zaprojektowany dla środowisk wysokiego bezpieczeństwa:

  • Gotowe do GDPR/CCPA: Trzymaj dane w swojej jurysdykcji.
  • Przetwarzanie Bezstanowe: Dokumenty są przetwarzane w pamięci lub wolumenach tymczasowych i nie są trwale przechowywane przez API.
  • Wydajne Zasoby: Zoptymalizowane dla wdrożeń VPS z niskim zużyciem pamięci.
  • Wielojęzyczne OCR: Obsługuje OCR w 7 językach (angielski, hiszpański, francuski, niemiecki, włoski, portugalski, rosyjski) do międzynarodowego przetwarzania dokumentów.

💳 Licencja

Wymagany jest prawidłowy klucz API do korzystania z usługi. Możesz: