Herramienta que se utiliza para convertir documentos PDF que contienen solo imágenes, por ejemplo, escaneos de libros o revistas en archivos PDF con OCR [Reconocimiento Óptico de Caracteres]. Utiliza un motor de OCR para analizar las imágenes y extraer el texto que contienen. El texto reconocido se inserta en el PDF de manera que se superponga a las imágenes originales, pero de forma invisible. Esto significa que el texto no se ve, pero está presente en el archivo PDF y puede ser seleccionado, copiado y buscado. Reconoce el diseño de página incluso para texto de varias columnas.
$ pdfsandwich -list_langs
$ pdfsandwich documento_escaneado.pdf documento_con_ocr.pdf
$ pdfsandwich -lang spa documento_escaneado.pdf documento_con_ocr.pdf
$ pdfsandwich -resolution 300 documento_escaneado.pdf documento_con_ocr.pdf