PDF Redaction

API de Redacción de PDF Autoalojada

Implementar y configurar la PDF Redaction API en su propia infraestructura usando Docker

PDF Redaction API: Autoalojada y Enmascaramiento Seguro de Documentos

Automatice la eliminación de PII (Información de Identificación Personal) de documentos PDF con una API REST de alto rendimiento y autoalojada. Los datos nunca salen de su servidor.

La PDF Redaction API es una solución containerizada diseñada para desarrolladores que necesitan proteger datos sensibles mientras mantienen el control total sobre la privacidad de los documentos. Es ideal para el cumplimiento de GDPR, HIPAA y CCPA.

Docker Hub: stabrise/pdf-redaction-api

🚀 Características Principales

  • Detección Automática de Datos Sensibles: Elimine automáticamente correos electrónicos, números de tarjetas de crédito, IDs fiscales (DNI/NIE), números de teléfono y otros PII.
  • Soporte OCR Multiidioma: OCR Tesseract integrado con soporte para inglés, español, francés, alemán, italiano, portugués y ruso.
  • Búsqueda Profunda y Reglas Personalizadas: Use reglas predefinidas y personalizadas para patrones de redacción avanzados.
  • Privacidad Total de Datos: A diferencia de las APIs basadas en la nube, esta imagen de Docker se ejecuta en su infraestructura (on-premise). Sus documentos nunca se suben a la nube.
  • Arquitectura RESTful: Integración de API simple basada en JSON con cualquier idioma (Python, JS, Go, PHP, etc.).
  • Procesamiento Avanzado de Imágenes: Incluye ffmpeg y bibliotecas de procesamiento de imágenes para manejar estructuras PDF complejas.

🛠 Inicio Rápido

🚀 Instalación Instantánea

Instale la PDF Redaction API autoalojada usando uno de los siguientes métodos:

Opción A (curl):

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Opción B (wget):

/bin/bash -c "$(wget -qO- https://raw.githubusercontent.com/StabRise/pdf-redaction-api/main/install.sh)"

Docker

Extraiga la imagen de Docker Hub y ejecute la PDF Redaction API en su VPS usando Docker:

docker run -d -p 8002:8002 \
  -e PDF_REDACTION_API_LICENSE=your_key_here \
  stabrise/pdf-redaction-api:latest

Docker Compose (Recomendado)

Para una configuración profesional con un volumen persistente (mejor para su configuración VPS):

services:
  pdf-api:
    image: stabrise/pdf-redaction-api:latest
    restart: unless-stopped
    ports:
      - "8002:8002"
    environment:
      # Requerido: Clave de licencia para uso en producción
      - PDF_REDACTION_API_LICENSE=${PDF_REDACTION_API_LICENSE}
      # Configuración del servidor (opcional, valores predeterminados mostrados)
      - PDF_REDACTION_API_HOST=0.0.0.0
      - PDF_REDACTION_API_PORT=8002
      - PDF_REDACTION_API_WORKERS_COUNT=1
      - PDF_REDACTION_API_ENVIRONMENT=production
      - PDF_REDACTION_API_LOG_LEVEL=INFO
      # Configuración LLM (opcional, para proveedor LLM personalizado)
      # - PDF_REDACTION_API_LLM_MODEL=meta-llama/llama-4-scout-17b-16e-instruct
      # - PDF_REDACTION_API_LLM_API_KEY=
      # - PDF_REDACTION_API_LLM_API_BASE_URL=
      # Límites de procesamiento (opcional, valores predeterminados mostrados)
      # - PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES=10
      # - PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES=10
    # Opcional: Use archivo .env para configuración
    env_file:
      - .env

📖 Ejemplo de Uso de la API

Una vez que el contenedor esté en ejecución, puede redactar un documento enviando una solicitud POST a /api/anonymize/pdf/:

curl -X POST http://localhost:8002/api/anonymize/pdf/ \
  -H "Content-Type: multipart/form-data" \
  -F "file=@document.pdf"

Para documentación completa, visite: PDF Redaction API Docs

⚙️ Configuración

La PDF Redaction API se puede configurar usando variables de entorno. Opciones de configuración clave:

Requerido

  • PDF_REDACTION_API_LICENSE: Clave de licencia (requerida para uso en producción)

Configuración del Servidor (Opcional)

  • PDF_REDACTION_API_HOST: Host del servidor (predeterminado: 127.0.0.1, use 0.0.0.0 para Docker)
  • PDF_REDACTION_API_PORT: Puerto del servidor (predeterminado: 8002)
  • PDF_REDACTION_API_WORKERS_COUNT: Número de procesos de trabajo (predeterminado: 1)
  • PDF_REDACTION_API_ENVIRONMENT: Modo de entorno (predeterminado: production)
  • PDF_REDACTION_API_LOG_LEVEL: Nivel de registro (predeterminado: INFO)

Configuración LLM (Opcional)

  • PDF_REDACTION_API_LLM_MODEL: Identificador del modelo LLM (p. ej., meta-llama/llama-4-scout-17b-16e-instruct)
  • PDF_REDACTION_API_LLM_API_KEY: Clave API para el proveedor LLM
  • PDF_REDACTION_API_LLM_API_BASE_URL: URL base para la API LLM

Límites de Procesamiento (Opcional)

  • PDF_REDACTION_API_PDF_PII_DETECT_MAX_PAGES: Páginas máximas para detección de PII (predeterminado: 10)
  • PDF_REDACTION_API_PDF_REDACTION_MAX_PAGES: Páginas máximas para redacción (predeterminado: 10)

🔒 Seguridad y Cumplimiento

Esta imagen está diseñada para entornos de alta seguridad:

  • Listo para GDPR/CCPA: Mantenga los datos dentro de su jurisdicción.
  • Procesamiento sin Estado: Los documentos se procesan en memoria o volúmenes temporales y no se almacenan permanentemente por la API.
  • Eficiente en Recursos: Optimizado para implementaciones VPS con bajo uso de memoria.
  • OCR Multiidioma: Admite OCR en 7 idiomas (inglés, español, francés, alemán, italiano, portugués, ruso) para procesamiento de documentos internacionales.

💳 Licencia

Se requiere una clave API válida para usar el servicio. Puede: