Como Extrair Texto de Páginas da Web

A extração de texto de uma página da Web pode ser feita de várias maneiras. O método escolhido deve depender do propósito que você tem em mente para o texto. Se tudo o que sua empresa precisa é imprimir o texto para usá-lo como instruções ou diretrizes, você pode extrair o texto apenas como HTML. Se houver imagens e texto na página da Web e você quiser mantê-la em seu formato original, extraia a página inteira. Existem três maneiras de extrair o texto e duas maneiras de extrair o texto e as imagens juntos.

Extrair somente texto

1

Abra a página da Web da qual deseja extrair o texto. Clique no menu “Arquivo” e clique na opção “Salvar como” ou “Salvar página como”. Selecione “Página da Web, apenas HTML” no menu suspenso Salvar como tipo, digite um nome para o arquivo e clique em “Salvar”. O texto será extraído e salvo como um arquivo HTML com as opções de formatação da página original intactas. O arquivo pode ser visualizado em navegadores da Web e editado em editores de texto como o Bloco de notas.

2

Clique na opção “Salvar como” ou “Salvar página como” e selecione “Arquivos de texto” no menu suspenso Salvar como tipo. Digite um nome para o arquivo de texto e clique em “Salvar”. O texto da página da Web será extraído e salvo como um arquivo de texto que pode ser visualizado em editores de texto e programas de documentos, como o Microsoft Word.

3

Clique e arraste para selecionar o texto na página da Web que deseja extrair e pressione “Ctrl-C” para copiar o texto. Abra um editor de texto ou programa de documento e pressione “Ctrl-V” para colar o texto da página da Web no arquivo de texto ou na janela do documento. Salve o arquivo de texto ou documento em seu computador.

Extraia texto e imagens

1

Clique no menu “Arquivo” em seu navegador da Web e clique na opção “Salvar como” ou “Salvar página como”. Selecione “Página da Web, Completa” no menu suspenso Salvar como tipo e digite um nome para o arquivo. Clique em “Salvar”. O texto e as imagens da página da Web serão extraídos e salvos. O texto será colocado em um arquivo HTML e as imagens em uma pasta no mesmo local do arquivo HTML.

2

Clique duas vezes no arquivo HTML para visualizar o texto e as imagens extraídos. Eles serão abertos no seu navegador. O outro método para extrair texto e imagens está disponível apenas no navegador Internet Explorer. Abra a página da Web desejada no Internet Explorer antes de prosseguir para a próxima etapa.

3

Clique na opção “Salvar como” no menu Arquivo e selecione “Arquivo da Web, arquivo único (* .mht)” no menu suspenso Salvar como tipo. Digite um nome para o arquivo e clique no botão “Salvar”. O texto e as imagens serão extraídos da página da Web para o arquivo. Clique duas vezes no arquivo para visualizar o texto e as imagens extraídos em seu navegador.