você está aqui: Home  → Arquivo de Mensagens

Indexação de Sites - robots.txt

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 29 de Março de 2004

A maioria de nós deseja que o conteúdo de seu site seja indexado pelo Google, Altavista e outros mecanismos de busca.

Entretanto, para determinadas seções de nossos sites, isto pode não ser desejável. Como fazer para impedir que conteúdo reservado seja indexado?

A maioria dos softwares de indexação obedece a algumas convenções, entre elas a de respeitar as informações sobre o que pode ou não ser indexado, contidas em um arquivo chamado robots.txt e localizado no diretório raiz do servidor Web.

Este arquivo é bem simples (mas pode ficar complexo, dependendo das suas necessidades.

Um pequeno exemplo:

  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /fotos/

O arquivo acima indica que nenhum indexador pode indexar o conteúdo dos diretórios /cgi-bin e /fotos.

A opção User-agent pode indicar apenas um determinado indexador. O indexador do Google, por exemplo, chama-se googlebot. Se o googlebot estiver visitando o seu site e ver algo como

  User-agent: googlebot
  Disallow: /

nada será indexado.

Caso você crie um arquivo como este para o seu site e quiser ver se fez tudo corretamente, existe um serviço de validação de arquivos robots.txt em http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

Neste mesmo local, caso você queira saber mais, existem diversas informações adicionais sobre este protocolo e também alguns exemplos interessantes.



Veja a relação completa dos artigos de Rubens Queiroz de Almeida

 

 

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script