Self-Hosted PDF Redaction API
Wdróż i skonfiguruj PDF Redaction API we własnej infrastrukturze używając Dockera
PDF Redaction API: Self-Hosted i Bezpieczne Maskowanie Dokumentów
Automatyzuj usuwanie PII (Informacji Umożliwiających Identyfikację Osoby) z dokumentów PDF za pomocą wydajnej, samodzielnie hostowanej API REST. Żadne dane nigdy nie opuszczają Twojego serwera.
PDF Redaction API to rozwiązanie kontenerowe zaprojektowane dla deweloperów, którzy muszą chronić wrażliwe dane, zachowując pełną kontrolę nad prywatnością dokumentów. Idealne do zgodności z GDPR, HIPAA i CCPA.
Docker Hub: stabrise/pdf-redaction-api
🚀 Kluczowe Funkcje
- Automatyczne Wykrywanie Wrażliwych Danych: Automatycznie usuwaj e-maile, numery kart kredytowych, numery identyfikacji podatkowej (DNI/NIE), numery telefonów i inne PII.
- Wielojęzyczne Wsparcie OCR: Wbudowany Tesseract OCR z obsługą angielskiego, hiszpańskiego, francuskiego, niemieckiego, włoskiego, portugalskiego i rosyjskiego.
- Głębokie Wyszukiwanie i Niestandardowe Reguły: Używaj predefiniowanych i niestandardowych reguł dla zaawansowanych wzorców redakcji.
- Całkowita Prywatność Danych: W przeciwieństwie do API opartych na chmurze, ten obraz Dockera działa w Twojej infrastrukturze (on-premise). Twoje dokumenty nigdy nie są przesyłane do chmury.
- Architektura RESTful: Prosta integracja API oparta na JSON z dowolnym językiem (Python, JS, Go, PHP, itp.).
- Zaawansowane Przetwarzanie Obrazów: Zawiera ffmpeg i biblioteki przetwarzania obrazów do obsługi złożonych struktur PDF.
🛠 Szybki Start
🚀 Natychmiastowa Instalacja
Zainstaluj samodzielnie hostowaną PDF Redaction API używając jednej z następujących metod:
Opcja A (curl):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Opcja B (wget):
/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Docker
Pobierz obraz z Docker Hub i uruchom PDF Redaction API na swoim VPS używając Dockera:
docker run -d -p 8002:8002 \
-e PDF_REDACTION_API_LICENSE=your_key_here \
stabrise/pdf-redaction-api:latestDocker Compose (Zalecane)
Dla profesjonalnej konfiguracji z trwałym wolumenem (najlepsze dla konfiguracji VPS):
services:
pdf-api:
image: stabrise/pdf-redaction-api:latest
restart: unless-stopped
ports:
- "8002:8002"
environment:
# Wymagane: Klucz licencyjny do użycia produkcyjnego
- PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
# Ustawienia serwera (opcjonalne, pokazane wartości domyślne)
- PDF_REDACTION_API_HOST=0.0.0.0
- PDF_REDACTION_API_PORT=8002
- PDF_REDACTION_API_WORKERS_COUNT=1
- PDF_REDACTION_API_ENVIRONMENT=production
- PDF_REDACTION_API_LOG_LEVEL=INFO
# Ustawienia LLM (opcjonalne, dla niestandardowego dostawcy LLM)
# - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
# - PDF_REDACTION_API_LLM_API_KEY=
# - PDF_REDACTION_API_LLM_API_BASE_URL=
# Limity przetwarzania (opcjonalne, pokazane wartości domyślne)
# - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
# - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
# Opcjonalne: Użyj pliku .env do konfiguracji
env_file:
- .env📖 Przykład Użycia API
Gdy kontener działa, możesz zredagować dokument wysyłając żądanie POST do /api/anonymize/pdf/:
curl -X POST http://localhost:8002/api/anonymize/pdf/ \
-H "Content-Type: multipart/form-data" \
-F "file=@document.pdf"Aby uzyskać pełną dokumentację, odwiedź: PDF Redaction API Docs
⚙️ Konfiguracja
PDF Redaction API można skonfigurować używając zmiennych środowiskowych. Kluczowe opcje konfiguracji:
Wymagane
- PDF_REDACTION_API_LICENSE: Klucz licencyjny (wymagany do użycia produkcyjnego)
Ustawienia Serwera (Opcjonalne)
- PDF_REDACTION_API_HOST: Host serwera (domyślnie:
127.0.0.1, użyj0.0.0.0dla Dockera) - PDF_REDACTION_API_PORT: Port serwera (domyślnie:
8002) - PDF_REDACTION_API_WORKERS_COUNT: Liczba procesów roboczych (domyślnie:
1) - PDF_REDACTION_API_ENVIRONMENT: Tryb środowiska (domyślnie:
production) - PDF_REDACTION_API_LOG_LEVEL: Poziom logowania (domyślnie:
INFO)
Ustawienia LLM (Opcjonalne)
- PDF_REDACTION_API_LLM_MODEL: Identyfikator modelu LLM (np.
meta-llama/llama-4-scout-17b-16e-instruct) - PDF_REDACTION_API_LLM_API_KEY: Klucz API dla dostawcy LLM
- PDF_REDACTION_API_LLM_API_BASE_URL: Bazowy URL dla API LLM
Limity Przetwarzania (Opcjonalne)
- PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Maksymalna liczba stron do wykrywania PII (domyślnie:
10) - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Maksymalna liczba stron do redakcji (domyślnie:
10)
🔒 Bezpieczeństwo i Zgodność
Ten obraz jest zaprojektowany dla środowisk wysokiego bezpieczeństwa:
- Gotowe do GDPR/CCPA: Trzymaj dane w swojej jurysdykcji.
- Przetwarzanie Bezstanowe: Dokumenty są przetwarzane w pamięci lub wolumenach tymczasowych i nie są trwale przechowywane przez API.
- Wydajne Zasoby: Zoptymalizowane dla wdrożeń VPS z niskim zużyciem pamięci.
- Wielojęzyczne OCR: Obsługuje OCR w 7 językach (angielski, hiszpański, francuski, niemiecki, włoski, portugalski, rosyjski) do międzynarodowego przetwarzania dokumentów.
💳 Licencja
Wymagany jest prawidłowy klucz API do korzystania z usługi. Możesz:
- Wygenerować klucz API na pdf-redaction.com/apikeys/
- Sprawdzić użycie na pdf-redaction.com/apikeys/usage/
- Uzyskać bezpłatną wersję próbną lub licencję komercyjną na pdf-redaction.com/licenses/
- Ustawić licencję używając zmiennej środowiskowej
PDF_REDACTION_API_LICENSElub dołączyć ją do pliku.env - Skrypt
setup.shpoprosi i dołączy licencję do pliku.env, jeśli brakuje