sábado, 19 de noviembre de 2016

OCR - Simple y rápido en Linux


A puesto a que todos en alguna ocasión, hemos tenido que copiar algún texto que nos pasaron en formato PDF, pero resulta que el PDF estaba compuesto por imágenes escaneadas, por ente no era posible copiar y pegar.

Pero gracias al Recocimiento Óptico de Carácteres (OCR), es posible obtener el texto a partir de una imagen escaneada.

Les hablo de gImageReader: es un software de código abierto, disponible en GitHUb-gImageReader y es posible instalarlo en algunas distribuciones de GNU/Linux.


Las funciones que este sotware permite realizar son las siguientes:
- Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, portapapeles y capturas de pantalla.
- Procesar múltiples imágenes y documentos de una sola vez
- Definir del área de reconocimiento manual o automática
- Reconocer a texto sin formato o documentos hOCR
- Mostrar el texto reconocido directamente junto a la imagen
- Procesar el texto reconocido, incluida la revisión ortográfica

- Generar documentos PDF desde el documento hOCR

En Fedora se instala con el siguiente comando:

sudo dnf install gimagereader-gtk

En Aprcity o derivados de Arch

yaourt -S gimagereader

En este software, permite ajustar el idioma en el que se desea obtener el texto.


Es simple, fácil de utilizar y muy útil. No es el más completo o super reconocedor de imágenes, pero es bastante bueno para ser de código libre.


Hasta ahora, es el que utilizo, y me ha servido bastante, sobre todo para hacer pequeños reconocimientos. Un escaneado o una captura de pantalla, nada complicado, tampoco esperen que reconozca letras de doctores o médicos, ya saben que esas solo las reconocen los farmacéuticos, cómo le hacen? no lo sé.


Otras opciones para Fedora, son las siguientes.


6 comentarios:

  1. Recuerdo que hace meses tuve la necesidad de usar un programa asi para evitar tipear un documento de 20 hojas. Busque en google un programa libre y no llegue a encontrar mucho. Termine usando abbyy xD es muy bueno reconociendo caracteres. No es libre, Así que si hay tiempo intentare probar con estos programas libres a ver que tal van :D
    Saludos!

    ResponderEliminar
    Respuestas
    1. Gracias por comentar.

      Excelente, prueba y luego comentas, tienes blog para ir leyendo tus experiencia???.

      Eliminar
    2. Salio fedora 25 a actualizar!
      No tengo blog, no soy bueno redactando y ando corto de tiempo xD
      Te comentare que tal me fue en los comentarios.

      Eliminar
    3. Ok, no hay problema... con gusto puedes publicar... en estos días estaré subiendo post sobre actualizaciones, paquetes etc, en Fedora 25

      Eliminar
    4. Desde fedora realice la instalacion de gimagereader, shutter y krita para luego manos a la obra :D
      Hice la prueba con un pdf de 8 lineas de texto y paso la prueba(la parte facil). La parte dificil es con las imagenes, volvi este pdf imagen y lo importe con krita ,edite el texto como si le hubiera echado agua a un documento para luego volverlo pdf con shutter. tan tan paso la prueba, aunque se equivoco con la "l" , "1" y la "i" se confunde con estos y la "n" con la "m". En general me agrado el resultado. Incluso abbyy falla con la i,l,1 xD

      Eliminar
    5. así es... no es el mejor que digamos, pero cumple su cometido, para ser software libre, la verdad es bastante bueno. Además, si pones en idioma español, incluso corrigue ortografía.

      Eliminar