Tutorial

Cómo aplicar OCR a un PDF escaneado y hacerlo editable.

Aprende cómo funciona el OCR (Reconocimiento Óptico de Caracteres), qué factores influyen en su precisión y cómo convertir un PDF escaneado en un documento que se pueda buscar, copiar y pegar utilizando la herramienta OCR basada en navegador de LuraPDF.

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 7 min read

Un PDF escaneado es una fotografía digital de un documento. Las páginas son imágenes. No se puede seleccionar texto, buscar palabras, copiar frases ni introducir el contenido en ningún procesador de texto. A efectos de recuperación de información, un PDF escaneado es prácticamente opaco.

El OCR (Reconocimiento Óptico de Caracteres) resuelve este problema analizando las imágenes y creando una capa de texto superpuesta al contenido visual. El resultado: un PDF idéntico al escaneo original, pero con una capa de texto invisible que permite seleccionar, buscar y copiar todo el contenido.

Cómo funciona el OCR

LuraPDF utiliza Tesseract.js, la versión compilada para navegador de Tesseract, uno de los motores OCR de código abierto más precisos, mantenido por Google y desarrollado originalmente por HP Labs. Tesseract utiliza un modelo de red neuronal (basado en LSTM) entrenado con millones de páginas de documentos en decenas de idiomas.

El proceso de OCR:

Renderizado de página: Cada página PDF se renderiza en una imagen de lienzo de alta resolución (más de 300 ppp para una mayor precisión).
Preprocesamiento: Mejora de la imagen: binarización, reducción de ruido, corrección de la inclinación (enderezamiento de escaneos rotados).
Análisis de diseño: Detección de regiones de texto, columnas, tablas y elementos que no son de texto.
Reconocimiento de caracteres: La red neuronal clasifica cada carácter de las regiones de texto segmentadas.
Postprocesamiento: Puntuación del modelo de lenguaje para desambiguar caracteres similares (por ejemplo, "l" frente a "1", "O" frente a "0").
Escritura de PDF: El texto reconocido se incrusta como una capa de texto invisible posicionada con precisión sobre los caracteres visuales correspondientes.

La capa de texto invisible es lo que permite realizar búsquedas en el resultado. La apariencia visual de la página sigue siendo la de la imagen escaneada original: se ve exactamente lo que se escaneó, pero el texto subyacente ahora es legible por máquina.

¿Qué afecta a la precisión del OCR?

La precisión varía significativamente según la calidad de los datos de entrada:

Resolución de escaneo

300 ppp es el mínimo para una precisión fiable. Por debajo de 200 ppp, el reconocimiento de caracteres se degrada considerablemente. Si va a escanear documentos para OCR, escanéelos siempre a 300 ppp o más.

Los documentos escaneados a 150 ppp o menos deben volver a escanearse a una resolución mayor antes de aplicar el OCR. Ejecutar el OCR en escaneos de baja resolución produce resultados deficientes, independientemente de la calidad del motor.

Calidad de fuente e impresión

Texto impreso (impresión láser, libros tipográficos): 98-99% de precisión con originales limpios.
Escritura a mano de alta calidad con caracteres claros: 85–95%
Texto tenue o descolorido: 80–95% dependiendo del contraste
Papel carbón: 60–85%
Periódico antiguo / máquina de escribir: 90–95% con escaneos limpios
Escritura cursiva: 40–70% — el OCR de red neuronal tiene dificultades con la escritura cursiva

Orientación de la página

Las páginas muy inclinadas o giradas perjudican la precisión. La mayoría de los motores OCR, incluido Tesseract, detectan y corrigen automáticamente las rotaciones leves (hasta unos 10 grados). Las páginas muy giradas deben corregirse manualmente primero con Rotar PDF.

Idioma

Tesseract admite más de 100 idiomas. La herramienta OCR de LuraPDF detecta automáticamente el inglés. Para documentos que no utilizan alfabetos latinos o que no están en inglés, la selección de idioma mejora sustancialmente la precisión.

Cómo realizar OCR en un PDF con LuraPDF

Abre la herramienta OCR: Navega a LuraPDF OCR PDF
Subir el PDF escaneado: Arrastra y suelta el archivo.
Seleccione el idioma (si no es inglés): Elija el idioma principal del documento.
Haz clic en "Ejecutar OCR": El procesamiento se realiza página por página en tu navegador. El tiempo varía según la longitud del documento; un escaneo de 20 páginas suele tardar entre 30 y 90 segundos en un ordenador moderno.
Descargar el PDF con texto editable: El resultado es un PDF con las imágenes escaneadas originales más una capa de texto incrustada.

Probando el resultado

Tras el reconocimiento óptico de caracteres (OCR), verifique la precisión:

Seleccione el texto en la página: el texto debe poder seleccionarse exactamente sobre los caracteres impresos.
Busca (Ctrl+F / Cmd+F) una palabra común; debería aparecer.
Copia un párrafo y pégalo en un editor de texto; el resultado debería ser legible.

Si la precisión es deficiente, compruebe primero la calidad del escaneo de entrada antes de probar otras herramientas.

Cuándo ejecutar el OCR antes que otras operaciones

El reconocimiento óptico de caracteres (OCR) desbloquea operaciones adicionales de LuraPDF que no funcionan en archivos PDF que solo contienen imágenes:

Comprimir PDF después del OCR: Una vez extraído el texto, las regiones de la imagen a veces se pueden comprimir de forma más agresiva.
PDF a Word después de OCR: Convertir un PDF procesado con OCR a Word produce texto editable; convertir un escaneo sin procesar produce un archivo de Word con imágenes incrustadas.
Redact PDF después del OCR: La censura basada en texto funciona correctamente en documentos procesados mediante OCR.
Buscar y extraer: Encuentra y copia información específica sin tener que volver a escribirla.

Privacidad: El OCR se ejecuta en su navegador

Tesseract.js ejecuta todo el proceso de OCR localmente mediante WebAssembly. Tus documentos escaneados, que a menudo contienen historiales médicos, estados financieros, documentos legales o información personal identificable, nunca salen de tu dispositivo. Ningún servidor remoto procesa tu archivo.

Esto supone una ventaja significativa frente a los servicios de OCR en la nube, que necesariamente reciben una copia de todo lo que se procesa.

Limitaciones del OCR basado en navegador

Tiempo de procesamiento

Tesseract.js es más lento que la versión nativa de escritorio de Tesseract o las API de OCR en la nube. El tiempo estimado por página es de 3 a 8 segundos, dependiendo del hardware. Un documento de 50 páginas puede tardar varios minutos.

Tablas

Tesseract reconoce el contenido de la tabla, pero no reconstruye su estructura en la capa de texto del PDF; el texto se mantendrá en orden de lectura, pero la estructura de las celdas no se conservará. Para extraer la tabla estructurada, convierta el PDF procesado con OCR a Word y reformatee la tabla manualmente.

Notación matemática

Las ecuaciones y los símbolos matemáticos al estilo LaTeX tienen menor precisión. Los modelos Tesseract están optimizados para texto en lenguaje natural.

Escritura a mano

Como se mencionó, la precisión de la escritura cursiva es limitada. La escritura en imprenta ofrece mejores resultados. Para documentos manuscritos importantes, verifique cada página manualmente.

Preguntas frecuentes

El texto reconocido por OCR no se alinea con los caracteres. ¿Es un error? Esto puede ocurrir con escaneos muy desviados. La posición del texto se calcula a partir de la posición de los caracteres detectados, pero si la geometría de la página no es estándar, la alineación puede variar. Intente rotar el PDF para corregir la desviación antes de ejecutar el OCR.

¿Puedo realizar el OCR solo en páginas específicas? LuraPDF procesa todas las páginas. Si solo necesita OCR en páginas específicas, primero extraiga esas páginas con Extraer páginas PDF, ejecute el OCR y, opcionalmente, combine los resultados.

¿El reconocimiento óptico de caracteres (OCR) modifica la apariencia visual de mi documento escaneado? No. Las imágenes escaneadas originales se conservan exactamente. Solo se añade una capa de texto invisible.

¿Puedo realizar un reconocimiento óptico de caracteres (OCR) en un PDF que ya contiene páginas de texto y páginas escaneadas? Sí, Tesseract procesa las páginas basadas en imágenes y añade una capa de texto. Las páginas que ya tienen una capa de texto no se ven afectadas.

Mi documento está en árabe/chino/japonés. ¿Funcionará el OCR? Sí, pero seleccione el idioma correcto en la herramienta antes de ejecutarla. La precisión de Tesseract para idiomas CJK y de escritura de derecha a izquierda es buena, pero varía más según la calidad del escaneo que con los documentos en alfabeto latino.

El reconocimiento óptico de caracteres (OCR) transforma archivos bloqueados de documentos escaneados en información accesible, consultable y procesable. Un archivador lleno de contratos escaneados se convierte en una base de datos consultable. Un montón de historiales médicos se convierte en un documento que puedes navegar fácilmente. El proceso tarda de segundos a minutos y se ejecuta completamente en tu dispositivo.