API de Redacción de PDF Autoalojada
Implementar y configurar la PDF Redaction API en su propia infraestructura usando Docker
PDF Redaction API: Autoalojada y Enmascaramiento Seguro de Documentos
Automatice la eliminación de PII (Información de Identificación Personal) de documentos PDF con una API REST de alto rendimiento y autoalojada. Los datos nunca salen de su servidor.
La PDF Redaction API es una solución containerizada diseñada para desarrolladores que necesitan proteger datos sensibles mientras mantienen el control total sobre la privacidad de los documentos. Es ideal para el cumplimiento de GDPR, HIPAA y CCPA.
Docker Hub: stabrise/pdf-redaction-api
🚀 Características Principales
- Detección Automática de Datos Sensibles: Elimine automáticamente correos electrónicos, números de tarjetas de crédito, IDs fiscales (DNI/NIE), números de teléfono y otros PII.
- Soporte OCR Multiidioma: OCR Tesseract integrado con soporte para inglés, español, francés, alemán, italiano, portugués y ruso.
- Búsqueda Profunda y Reglas Personalizadas: Use reglas predefinidas y personalizadas para patrones de redacción avanzados.
- Privacidad Total de Datos: A diferencia de las APIs basadas en la nube, esta imagen de Docker se ejecuta en su infraestructura (on-premise). Sus documentos nunca se suben a la nube.
- Arquitectura RESTful: Integración de API simple basada en JSON con cualquier idioma (Python, JS, Go, PHP, etc.).
- Procesamiento Avanzado de Imágenes: Incluye ffmpeg y bibliotecas de procesamiento de imágenes para manejar estructuras PDF complejas.
🛠 Inicio Rápido
🚀 Instalación Instantánea
Instale la PDF Redaction API autoalojada usando uno de los siguientes métodos:
Opción A (curl):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Opción B (wget):
/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"Docker
Extraiga la imagen de Docker Hub y ejecute la PDF Redaction API en su VPS usando Docker:
docker run -d -p 8002:8002 \
-e PDF_REDACTION_API_LICENSE=your_key_here \
stabrise/pdf-redaction-api:latestDocker Compose (Recomendado)
Para una configuración profesional con un volumen persistente (mejor para su configuración VPS):
services:
pdf-api:
image: stabrise/pdf-redaction-api:latest
restart: unless-stopped
ports:
- "8002:8002"
environment:
# Requerido: Clave de licencia para uso en producción
- PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
# Configuración del servidor (opcional, valores predeterminados mostrados)
- PDF_REDACTION_API_HOST=0.0.0.0
- PDF_REDACTION_API_PORT=8002
- PDF_REDACTION_API_WORKERS_COUNT=1
- PDF_REDACTION_API_ENVIRONMENT=production
- PDF_REDACTION_API_LOG_LEVEL=INFO
# Configuración LLM (opcional, para proveedor LLM personalizado)
# - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
# - PDF_REDACTION_API_LLM_API_KEY=
# - PDF_REDACTION_API_LLM_API_BASE_URL=
# Límites de procesamiento (opcional, valores predeterminados mostrados)
# - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
# - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
# Opcional: Use archivo .env para configuración
env_file:
- .env📖 Ejemplo de Uso de la API
Una vez que el contenedor esté en ejecución, puede redactar un documento enviando una solicitud POST a /api/anonymize/pdf/:
curl -X POST http://localhost:8002/api/anonymize/pdf/ \
-H "Content-Type: multipart/form-data" \
-F "file=@document.pdf"Para documentación completa, visite: PDF Redaction API Docs
⚙️ Configuración
La PDF Redaction API se puede configurar usando variables de entorno. Opciones de configuración clave:
Requerido
- PDF_REDACTION_API_LICENSE: Clave de licencia (requerida para uso en producción)
Configuración del Servidor (Opcional)
- PDF_REDACTION_API_HOST: Host del servidor (predeterminado:
127.0.0.1, use0.0.0.0para Docker) - PDF_REDACTION_API_PORT: Puerto del servidor (predeterminado:
8002) - PDF_REDACTION_API_WORKERS_COUNT: Número de procesos de trabajo (predeterminado:
1) - PDF_REDACTION_API_ENVIRONMENT: Modo de entorno (predeterminado:
production) - PDF_REDACTION_API_LOG_LEVEL: Nivel de registro (predeterminado:
INFO)
Configuración LLM (Opcional)
- PDF_REDACTION_API_LLM_MODEL: Identificador del modelo LLM (p. ej.,
meta-llama/llama-4-scout-17b-16e-instruct) - PDF_REDACTION_API_LLM_API_KEY: Clave API para el proveedor LLM
- PDF_REDACTION_API_LLM_API_BASE_URL: URL base para la API LLM
Límites de Procesamiento (Opcional)
- PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Páginas máximas para detección de PII (predeterminado:
10) - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Páginas máximas para redacción (predeterminado:
10)
🔒 Seguridad y Cumplimiento
Esta imagen está diseñada para entornos de alta seguridad:
- Listo para GDPR/CCPA: Mantenga los datos dentro de su jurisdicción.
- Procesamiento sin Estado: Los documentos se procesan en memoria o volúmenes temporales y no se almacenan permanentemente por la API.
- Eficiente en Recursos: Optimizado para implementaciones VPS con bajo uso de memoria.
- OCR Multiidioma: Admite OCR en 7 idiomas (inglés, español, francés, alemán, italiano, portugués, ruso) para procesamiento de documentos internacionales.
💳 Licencia
Se requiere una clave API válida para usar el servicio. Puede:
- Generar una clave API en pdf-redaction.com/apikeys/
- Verificar su uso en pdf-redaction.com/apikeys/usage/
- Obtener una prueba gratuita o licencia comercial en pdf-redaction.com/licenses/
- Establecer la licencia usando la variable de entorno
PDF_REDACTION_API_LICENSEo incluirla en un archivo.env - El script
setup.shle pedirá y agregará la licencia a su archivo.envsi falta