Como extrair texto de um arquivo PDF (4 Soluções)
Extrair texto de um arquivo PDF pode ser desafiante, especialmente porque nem todos os editores de PDF permitem selecionar o texto para extração. Isso fica mais evidente quando o PDF inclui muitas imagens ou tabelas. No entanto, existem diversas soluções que o vão conseguir ajudar a extrair o texto do PDF.
Solução 1: Usando o seu navegador
Os navegadores atuais (Chrome, Edge ou Firefox) permitem ler e criar arquivos PDF. Com alguma imaginação, é possível usar essa funcionalidade para dividir um documento PDF, extrair páginas indesejadas, etc. Se estiver perante um documento “tradicional” (maioritariamente texto), será possível selecionar o conteúdo normalmente e com o botão direito do mouse escolher “Copiar”.
Dica: No Microsoft Edge irá encontrar uma funcionalidade muito útil, que lhe permite ler documentos PDF em voz alta. Para isso, basta abrir o seu documento PDF no Edge e pressionar as teclas de atalho CTRL+SHIFT+U.
Solução 2: Converter PDF em .doc
Claro que a maioria dos documentos irá possuir grafismo ou tabelas, que irá dificultar a extração do texto. Uma das soluções, passa por converter o documento PDF para .doc, um formato do Microsoft Word. Mesmo que não possua o Microsoft Office instalado, será possível converter o seu documento usando o Word Online.
O Word Online não permite o Upload direto do PDF, para isso, será necessário recorrer a um pequeno “truque” que consiste em usar o OneDrive, para fazer o upload do PDF, e posteriormente editar no Word.
- Comece por aceder ao site OneDrive e faça o login com a sua conta Microsoft (se necessário).
- Clique no botão “Carregar” e faça o upload do seu documento PDF.
- Selecione o seu documento PDF e escolha a opção “Abrir” – “Abrir no Word Online”.
O seu documento irá ser convertido para .doc, sendo possível selecionar todo o texto extraído do seu documento.
Solução 3: Editor de PDF
Extrair texto de um PDF é uma tarefa simples se usar um editor poderoso como o Nitro PDF. Na prática, basta abrir o seu documento PDF no Nitro PDF e no menu superior escolher a opção “Home ” > Select > Select Text / Graphic. Agora, basta selecione o texto que pretende extrair e com o botão direito do mouse clique em “Copy Text” (Atalho CTRL+ C).
Este é o procedimento mais “simplista”, no entanto, é importante recordar que o NitroPDF é um programa gratuito para testar, e o preço de uma licença não é nada “simpático”.
Solução 4: OCR
Outra solução, consiste na utilização de um aplicativo que permita extrair texto de uma imagem, uma técnica conhecida como OCR (Optical character recognition, em português Reconhecimento ótico de carateres). A desvantagem, é que apenas poderá trabalhar com pequenas secções do documento.
Caso o documento possua demasiado grafismo, que prejudique a extração do texto, poderá usar uma captura de tela (no Windows 10, pressione a tecla Windows + Print Screen), ou usar a ferramenta “Recorte” para capturar uma parte específica do documento (tecla de atalho Windows + Shift + S).
Agora, basta usar um serviço OCR para extrair o texto da imagem. Uma solução gratuita é o Google Docs, bastando para isso aceder ao Google Drive (serviço de armazenamento em nuvem) e fazer o upload da imagem que contém o texto que pretende extrair. Para isso, basta clicar no botão “+Novo” > “Carregar Ficheiro” > Escolher a imagem.
Após o upload ser concluído, a imagem passa a constar na lista de arquivos. Se não encontrar a imagem, basta ordenar os arquivos por data de upload. Com o botão direito do mouse escolha a opção “Abrir com” > Google Docs. Surgirá uma nova janela contendo a imagem e o texto extraído.
Conclusão
Aqui ficaram várias soluções para extrair texto de um arquivo PDF, que embora não sejam perfeitas, seguramente vão-lhe poupar imenso trabalho. Caso possua outra sugestão, ou alguma dúvida, envie o seu comentário para o Guia Informática 😉