Como veremos pela assunto sobre o Googlebot, os robôs dos sites de busca são aplicativos que navegam na internet através dos links localizados nas páginas, em procura de conteúdo a ser indexado e exposto nos resultados de pesquisa. Páginas de impressão – Se seu web site tiver versões pra tela e impressão sendo indexadas, elimine a versão pra impressão do índice do Google. Como o respectivo nome neste momento diz, robots.txt é um arquivo no modelo .txt (bloco de notas).
Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a acordadas páginas ou pastas dos web sites. O robots.txt controla qual fato de um web site deve ou não precisa ser indexada pelos buscadores. A sintaxe do arquivo é bem claro, e necessita ser colocada pelo webmaster responsável pelo web site pela raiz da hospedagem.
O arquivo robots.txt tem o papel de fazer uma política de acesso aos Robots. Pra execução destas tarefas, há frases reservadas, ou seja, frases com a função de comandos que permitirão ou não o acesso a instituídos diretórios ou páginas de um site. A atividade do comando user-agent é listar quais robôs precisam acompanhar as regras indicadas no arquivo robots.txt.
- 35 Tá fraco 35.Um Crônica do piolho do Hinkel
- Coleções de DVDs
- Assinatura do Contrato de Franquia
- De açúcar cristal
- 5 – Desconfie do lucro descomplicado e abundante
- Thanks for article – George
Supondo que você deseje apenas que o aparelho de procura do Google siga as definições determinadas no arquivo robots.txt,basta indicar o User-agent como Googlebot. O comando instrui os buscadores sobre o assunto quais diretórios ou páginas não devem ser incluídas no índice. Disallow: print1.html – orienta aos robots a não indexarem tema da página print1.html. O comando Allow orienta aos robots qual diretório ou página necessita ter o tema indexado.
Diretórios e páginas são por descrição a toda a hora permitidos. Assim, esse comando precisa ser utilizado só em circunstâncias em que o webmaster bloqueou o acesso a um diretório por intermédio do comando Disallow, todavia adoraria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note tais como no robots.txt do Google, logo no começo, as duas linhas abaixo.
O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs. Uma outra atividade permitia pelo robots.txt é a indicação do caminho e nome do sitemap em modelo XML do website. A ferramenta pra Webmasters do Google, entretanto, oferece um maior controle e visibilidade pra mesma função – avisar ao Google onde está o ou os arquivos sitemap. Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes.
Assim, cuidado com o que é incluído desse arquivo. Evite botar arquivos confidenciais. Exemplo: o webmaster não deseja que o assunto do diretório/docs seja indexado pelos robots, desta maneira, bloqueou o acesso ao diretório /docs com o comando “Disallow: /docs” no arquivo robots.txt. Dentro desse diretório, porém, existe um sub-diretório chamado “public”, que necessita ter seu conteúdo indexado.
Para que isto aconteça, basta usar no arquivo robots.txt a instrução “Allow: /docs/public/”. Para enxergar exemplos de arquivos robots.txt, saia navegando na internet e inclua o arquivo /robots.txt pela raíz dos blogs visitados pra ver se eles utilizam o arquivo robots.txt. A respeito do autor: Fundador da Seo Marketing, Bernhard Schultze é líder do comitê de Search da APADI (Associação Paulista de Agências Digitais) e instrutor do curso de Seo da Digitalks.