OCR - Simple y rápido en Linux ~ linuxitos

sábado, 19 de noviembre de 2016

OCR - Simple y rápido en Linux

Posted on 11/19/2016 10:23:00 p.m. by Fernando Merino with 6 comments

A puesto a que todos en alguna ocasión, hemos tenido que copiar algún texto que nos pasaron en formato PDF, pero resulta que el PDF estaba compuesto por imágenes escaneadas, por ente no era posible copiar y pegar.

Pero gracias al Recocimiento Óptico de Carácteres (OCR), es posible obtener el texto a partir de una imagen escaneada.

Les hablo de gImageReader: es un software de código abierto, disponible en GitHUb-gImageReader y es posible instalarlo en algunas distribuciones de GNU/Linux.

Las funciones que este sotware permite realizar son las siguientes:
- Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, portapapeles y capturas de pantalla.
- Procesar múltiples imágenes y documentos de una sola vez
- Definir del área de reconocimiento manual o automática
- Reconocer a texto sin formato o documentos hOCR
- Mostrar el texto reconocido directamente junto a la imagen
- Procesar el texto reconocido, incluida la revisión ortográfica

- Generar documentos PDF desde el documento hOCR

En Fedora se instala con el siguiente comando:

sudo dnf install gimagereader-gtk

En Aprcity o derivados de Arch

yaourt -S gimagereader

En este software, permite ajustar el idioma en el que se desea obtener el texto.

Es simple, fácil de utilizar y muy útil. No es el más completo o super reconocedor de imágenes, pero es bastante bueno para ser de código libre.

Hasta ahora, es el que utilizo, y me ha servido bastante, sobre todo para hacer pequeños reconocimientos. Un escaneado o una captura de pantalla, nada complicado, tampoco esperen que reconozca letras de doctores o médicos, ya saben que esas solo las reconocen los farmacéuticos, cómo le hacen? no lo sé.

Otras opciones para Fedora, son las siguientes.

6 comentarios:

aslunes, noviembre 21, 2016 8:10:00 a.m.
Recuerdo que hace meses tuve la necesidad de usar un programa asi para evitar tipear un documento de 20 hojas. Busque en google un programa libre y no llegue a encontrar mucho. Termine usando abbyy xD es muy bueno reconociendo caracteres. No es libre, Así que si hay tiempo intentare probar con estos programas libres a ver que tal van :D
Saludos!
ResponderBorrar
Respuestas

Agregar un comentario

sábado, 19 de noviembre de 2016

OCR - Simple y rápido en Linux

6 comentarios:

Categorías

Archivos del Blog

Vistas a la página totales

Facebook

Datos personales