você está aqui: Home  → Arquivo de Mensagens

wayback-machine-downloader - Download de versões antigas de sites web

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 10 de abril de 2017

O portal Archive.org é uma espécie de museu da Internet. São milhões de e-books, filmes, software, música, websites e muito mais.

De certa forma, este portal serve também como uma espécie de backup. Em duas ocasiões, a pedido de amigos, consegui recuperar integralmente os dados que haviam sido perdidos. É claro que não é um backup atualizado, o Archive.org não coleta os dados diariamente, são realizadas coletas apenas algumas vezes por ano. A recuperação de dados é efetiva quando se quer recuperar um portal que já não existe mais ou então para recuperar portais antigos, provendo uma espécie de viagem no tempo.

Desta forma, você pode acionar um programa para fazer o download das páginas a partir do portal Archive.org, recriando no computador local a árvore de diretórios original. Esta cópia pode não conter todos os arquivos, mas mesmo assim é uma grande ajuda.

Para auxiliar nesta tarefa, podemos utilizar o software Wayback Machine Downloader. Este software, escrito em Ruby faz o download com perfeição de um portal arquivado no site Archive.org.

Para instalar, siga os seguintes passos:

  1. Verifique se o seu sistema possui a linguagem Ruby instalada
  2. Visite o portal do aplicativo e faça o download (Cópia local, versão de 9 de abril de 2017)
  3. Expanda os arquivos;
      unzip wayback-machine-downloader-master.zip
    
  4. Compile o aplicativo:

      cd wayback-machine-downloader-master 
      $ sudo gem install wayback_machine_downloader
      Fetching: wayback_machine_downloader-1.1.5.gem (100%)
      Successfully installed wayback_machine_downloader-1.1.5
      Parsing documentation for wayback_machine_downloader-1.1.5
      Installing ri documentation for wayback_machine_downloader-1.1.5
      Done installing documentation for wayback_machine_downloader after 0 seconds
      1 gem installed
    

    Para usar, basta fornecer a url do portal que se deseja baixar:

      $ wayback_machine_downloader http://www.dicas-l.com.br
      Downloading http://www.dicas-l.com.br to websites/www.dicas-l.com.br/ from Wayback Machine archives.
      
      Getting snapshot pages... found 858 snaphots to consider.
      
      423 files to download:
      
      ... várias linhas omitidas
    

    Esta é a sintaxe mais simples, mas o programa suporta diversas outras opções. Para saber mais, leia com atenção o arquivo README.md, que contém informações mais detalhadas sobre as opções oferecidas pelo programa.



 

 

Veja a relação completa dos artigos de Rubens Queiroz de Almeida

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script