Extraindo textos apartir de imagens

E como sempre a nossa amiga e colaboradora Caroline Souza em sua saga de dar soluções a problemas de suporte, vem participar conosco através de seu artigo, o original encontra-se no Blog da Carol, não esqueçam de visitar.

Realizando um atendimento (quem lê até pensa que sou médica rs) me deparei com um problema, tinha que converter um arquivo pdf de 29 páginas para texto, até aí blz, bastava usar um:

e pronto, textos a partir do pdf em instantes.
Mas por que facilitar se podemos complicar, né!
O resultado desse comando gerava infomações lixo que não batiam com o conteúdo do pdf.
Tentando de novo, só que agora com outro tipo de arquivo de saída:

e… BINGO!! Esse pdf foi gerado a partir de várias imagens organizadas e “linkadas” num index.html. Agora tenho um arquivo html e 29 arquivos PNG.
Mas não resolvi meu problema, cadê os textos?
Vamos à “mágica”!!
OCR é um acrónimo para o inglês Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter um arquivo de texto editável.
Fonte: Wikipédia
O que temos nos repositórios do OpenSuse que pode nos ajudar…

Vamos instalar o gocr.

Prontinho.
Agora é só testar.
A interface do programa não é das mais atrativas, mas é funcional.

Aqui é bem simples, basta escolher o arquivo de imagem e clicar em “Run it”. Depois é só salvar o resultado num txt no menu File -> Save output.
Problema resolvido né! Quase…
Imagina ter que gerar o txt de 29 imagens. Por que não otimizar?

Obs.: Quem deu uma força gerando o script foi meu amigo Cláudio Miranda.
Missão cumprida e usuário feliz. o/
Abraços. :-D

Share

    Deixe um comentário

    O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

    © 2019 All Rights Reserved. Cooperati. 

    %d blogueiros gostam disto: