Mostrando las entradas con la etiqueta escanear. Mostrar todas las entradas
Mostrando las entradas con la etiqueta escanear. Mostrar todas las entradas

sábado, 19 de noviembre de 2016

OCR - Simple y rápido en Linux


A puesto a que todos en alguna ocasión, hemos tenido que copiar algún texto que nos pasaron en formato PDF, pero resulta que el PDF estaba compuesto por imágenes escaneadas, por ente no era posible copiar y pegar.

Pero gracias al Recocimiento Óptico de Carácteres (OCR), es posible obtener el texto a partir de una imagen escaneada.

Les hablo de gImageReader: es un software de código abierto, disponible en GitHUb-gImageReader y es posible instalarlo en algunas distribuciones de GNU/Linux.


Las funciones que este sotware permite realizar son las siguientes:
- Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, portapapeles y capturas de pantalla.
- Procesar múltiples imágenes y documentos de una sola vez
- Definir del área de reconocimiento manual o automática
- Reconocer a texto sin formato o documentos hOCR
- Mostrar el texto reconocido directamente junto a la imagen
- Procesar el texto reconocido, incluida la revisión ortográfica

- Generar documentos PDF desde el documento hOCR

En Fedora se instala con el siguiente comando:

sudo dnf install gimagereader-gtk

En Aprcity o derivados de Arch

yaourt -S gimagereader

En este software, permite ajustar el idioma en el que se desea obtener el texto.


Es simple, fácil de utilizar y muy útil. No es el más completo o super reconocedor de imágenes, pero es bastante bueno para ser de código libre.


Hasta ahora, es el que utilizo, y me ha servido bastante, sobre todo para hacer pequeños reconocimientos. Un escaneado o una captura de pantalla, nada complicado, tampoco esperen que reconozca letras de doctores o médicos, ya saben que esas solo las reconocen los farmacéuticos, cómo le hacen? no lo sé.


Otras opciones para Fedora, son las siguientes.