Robots.txt: saiba o que é, para que serve e como configurar

Icon-single-post
Escrito por Luis Ottoni
Revisado por Luis Ottoni
janeiro 1, 2023
Sem Comentários

Índice

Índice

Você trabalha com criação de conteúdo no Google e ainda não sabe o que é Robots.txt? Está na hora de se atualizar!

Bem, se você é consultor, trabalha com agências ou é um profissional de marketing digital, já sabe o quão importante é o mecanismo de pesquisa indexar seu conteúdo, certo?

Nesse cenário, muitas técnicas são aplicadas para fazer com que o site consiga ser melhor rastreado pelo Google, tendo uma indexação total de suas páginas e conteúdo.

Essa indexação pode ocorrer de diversos modos, entre elas, através de ações on-page e off-page, geração de links, tags, meta-descrições, otimização de imagens, Robots.txt e muito mais.

No artigo de hoje, vamos conhecer melhor sobre os robots.txt, uma técnica mais conhecida pela galera que cuida do desenvolvimento.

Então, se você nunca ouviu falar sobre robots.txt, pode ficar tranquilo(a)! A Rankrup montou esse conteúdo super completo sobre esse tema para você!

Ah e se você já conhece mas quer dar aquele upgrade em suas visitas aplicando esse método, esse artigo também é para você!

Vamos juntos nessa leitura? 

O que é robots.txt?

O robots.txt se trata de um arquivo que tem como função indicar para os robôs de busca (como Google, Yahoo, Bing) quais são as páginas de seu site que você não deseja que sejam acessadas pelo mecanismo de pesquisa.

O robots.txt é um arquivo que deve ser salvo na pasta raiz do seu site e, por ser do formato .txt, ele pode ser criado no próprio bloco de notas de seu computador.

Dessa forma, não é necessário ter uma uma ferramenta para sua criação. Prático, não é mesmo?

Bem, mas como esse tal de robots.txt funciona?

Basicamente, esse arquivo utiliza um Protocolo de Exclusão de Robôs padrão, que é um conjunto de comandos que são usados pelos robôs de busca.

Dessa forma, esses mecanismos saberão quais os diretórios e páginas de seu site não devem ser acessados por eles.

Como falamos anteriormente, o arquivo deve ser salvo na pasta raiz do site, por isso, o acesso aos arquivos robots.txt de outras páginas é fácil.

Para isso, basta digitar o endereço da página no seu navegador e adicionar o comando “/robots.txt” ao final da URL.

Você pode testar essa função para conhecer alguns endereços que seus concorrentes desejam esconder de suas páginas.

Essa pode ser uma forte fonte de insights na hora de ajustar as páginas do seu site.

Para que serve o robots.txt?

O comando robots.txt tem como função essencial fornecer ordens específicas para os robôs de busca.

Aqui, listamos algumas das aplicabilidades do robots.txt para você entender melhor:

Controla o acesso a arquivos de imagem

Já imaginou se todas as imagens das páginas aparecem nos resultados de busca? Que grande desperdício de tráfego seria, não é mesmo?

Para controlar essa chuva de pixels, o robots.txt é capaz de impedir que os arquivos de imagem de sua página sejam exibidos nos resultados de busca.

Além de manter mais organizado, as imagens ocultas dos resultados de busca promovem um melhor controle de acesso a informações importantes, como infográficos e detalhes técnicos de produtos.

Com essas informações ocultas, os usuários se tornam obrigados a acessar a sua página para visualizar essas imagens.

Dessa forma, essa se torna mais um recurso para aumentar o tráfego na sua página.

Lembrando que o robots.txt não impede a cópia e o compartilhamento dos links de suas imagens.

Para isso, você precisará recorrer a outras ferramentas.

Controla o acesso às páginas da web

O robots.txt impede que os robôs de busca acessem páginas de acesso restrito ou irrelevantes para sua estratégia.

Dessa forma, o servidor do seu site poderá ficar menos congestionado com centenas de acessos de robôs de busca.

Com essa redução de fluxo, a sua empresa poderá economizar uma graninha com hospedagem.

Como o robots.txt só impedem o acesso dos robôs de busca, usuários ainda podem localizar essas páginas “ocultas” caso tenham o link de acesso direto a elas.

Bloquear acessos a arquivos de recursos

Arquivos de script e de estilo irrelevante podem ser bloqueados pelos robots.txt. 

Dessa forma, você também pode poupar espaço dos seus servidores.

Mas cuidado! Se esses recursos forem necessários para o carregamento correto de sua página, não é recomendado o uso dos robots.txt.

Isso porque a ocultação poderá dificultar o trabalho dos rastreadores e isso pode prejudicar a análise de sua página.

Por que usar um arquivo robots.txt no seu site?

A uma altura do campeonato dessa, você que entende ao menos mínimo de indexação de conteúdo nos mecanismos de busca deve estar se perguntando:

Por que eu vou esconder meu site dos robôs se quanto mais o site aparecer, maior será o tráfego orgânico?

Em partes, você está fazendo um questionamento lógico. Inclusive, de acordo com as diretrizes do Google, a maioria dos sites não precisa de um robots.txt. 

Então, se por acaso o seu site não possuir um arquivo com as diretrizes para os robôs, ele poderá ser rastreado e indexado normalmente.

Mas aqui vão 3 motivos para você incluir as regras do robots.txt no seu site:

1. Evitar o rastreamento de áreas internas, arquivos e recursos

Páginas com área de login, de uso interno ou em desenvolvimento precisam ter regras para não serem rastreadas por robôs. 

Essa é uma boa prática de segurança que deve ser aplicada nos sites.

Também é possível que arquivos do tipo PDF ou DOC, imagens e recursos sejam rastreados.

Trazendo um pouco para a realidade do marketing digital, se você trabalha com a estratégia de Inbound Marketing, os robots.txt são excelentes para a hospedagem de materiais dentro do seu domínio. 

Como o intuito é aumentar o seu tráfego orgânico e aumentar a conversão, você quer que seus potenciais Leads encontrem sua Landing Page em vez de diretamente o material final.

Então, utilizando as regras de um arquivo de robots.txt, você pode impedir esse rastreamento de uma área inteira do seu site.

Além disso, com as atualizações e novas regras, você pode apontar quais páginas são exceções e as que devem ser indexadas.

2. O tempo dos robôs no seu site é limitado

Você sabia que os robôs do Google tem um limite de rastreamento?

Agora imagina se o Google passa horas rastreando páginas irrelevantes enquanto aquelas que deveriam ser visualizadas passam despercebidas?

Um verdadeiro problema, não é mesmo? Isso é o que pode acontecer caso você não defina o que deve ou não ser rastreado.

Os robôs perderão tempo no rastreamento de páginas sem valor enquanto que você perde a oportunidade de rankear as páginas que gostaria de indexar. 

Se você está passando por um problema como esse, o robots.txt pode ajudar você!

Caso os robôs estejam rastreando o site inteiro, pode ser que exista um problema de Crawl Budget.

Diante disso, você pode bloquear o rastreamento de páginas irrelevantes e resolver esse problema.

Geralmente, esse problema ocorre com sites de grande porte e portais de conteúdos, que contém muitas páginas.

3. Você pode usar para indicar onde estão seus sitemaps

Quer deixar os sitemaps mais evidentes para os mecanismos de busca? O robots.txt pode ajudar a localizar.

Essa é uma das funcionalidades mais simples dessa ferramenta, mas que ajuda bastante o Google e outros buscadores a encontrarem seus sitemaps.

Com os sitemaps, esses mecanismos de busca poderão entender melhor a organização do seu site.

Quando não usar o arquivo robots.txt?

Acessar os conteúdos do robots.txt fácil e qualquer pessoa pode acessar na internet, inclusive hackers.

Tendo em vista essa facilidade, o arquivos robots.txt não é indicado para bloquear o acesso a documentos pessoais ou arquivos confidenciais.

Isso porque o bloqueio promovido pelo robots.txt é exclusivamente para os mecanismos de busca e permitindo o acesso diretamente pelo robots.txt.

Para esses tipos de arquivos é recomendado que seja incluído senha para o acesso ou utilizar a Meta Tag Robots.

Precisamos deixar claro também que os arquivos que forem listados no comando do robots.txt podem ser exibidos no Google.

Então, se você deseja garantir que certas páginas estejam 100% ocultas dos resultados de busca utilize a ferramenta Robots Meta Tag Noindex.

Como criar um arquivo robots.txt?

robots.txt
Créditos: Canva.

Até aqui você aprendeu melhor sobre a teoria do robots.txt, agora, que tal colocar a mão na massa e criar um?

Esses arquivos são bem simples de serem confeccionados, exigindo apenas o conhecimento de poucos comandos específicos.

Este arquivo pode ser criado no bloco de notas de seu computador ou outro editor de texto da sua escolha.

Além disso, também é necessário que você tenha acesso à pasta raiz de seu domínio porque é lá que você salvará o arquivo que você criou.

Com o seu editor de texto e a pasta raiz, vamos partir para o conhecimento da sintaxe e os comandos do robots.txt

Comandos do robots.txt

Tendo em vista que os robôs interpretam o conteúdo do arquivo, então é necessário que os arquivos robots.txt sigam alguns padrões.

A primeira exigência é que o arquivo de texto esteja no formato ASCII ou UTF-8. 

Além disso, tendo em vista que as regras inseridas no arquivo são interpretadas de cima para baixo, então a sequência de escrita deve ser: user-agent (para quem a regra se aplica) e quais arquivos e diretórios esse robô pode ou não acessar.

Preste atenção também nas letras maiúsculas e minúsculas, as regras também diferenciam isso.

Se, por exemplo, você incluir um diretório “/Armazenar” e um segundo “/armazenar”, a regra só vai se aplicar para o que foi incluído no arquivo.

De maneira geral, as regras e comandos do robots.txt funcionam de forma semelhante ao HTML e às linguagens de programação que conhecemos.

Veja só alguns exemplos de comandos do arquivo robots.txt:

Comando User-agent

Com esse comando, você pode definir qual robô de busca você está se referindo.

Isso é possível porque o seu arquivo robots.txt pode ter ordens específicas para cada robô de busca existente no mercado.

Se você quiser saber o nome de cada User-agent, basta consultar o Web Robots Database para consultar a lista dos robôs das principais ferramentas de busca do mercado.

Para o nosso exemplo, vamos utilizar os comandos do robots.txt para o robô de busca do Google, o Googlebot.

Se você quisesse dar ordens específicas para ele, o comando inserido em seu robots.txt seria esse:

User-agent: Googlebot

Por outro lado, se as ordens específicas fossem direcionadas para robô de busca do Bing, o comando seria:

User-agent: Bingbot

Esse comando é bem fácil, você só precisa alterar o nome do User-agent.

E para inserir regras para todos os mecanismos de busca?

Bem, você só precisa o nome do User-agent por um asterisco:

User-agent: *

Comando Disallow

Com esse segundo comando você poderá descrever quais são as páginas, diretórios ou sites não devem ser incluídas nos resultados de busca.

Então, por exemplo, se você deseja que os robôs do mecanismo de busca não acessem a página “beta.php” de seu site, basta adicionar o comando “Disallow: /beta.php”.

Com o Disallow você também pode impedir o acesso a pastas específicas de uma maneira bem fácil.

Vamos supor que a pasta se chama “compras”, nesse caso, o comando seria “Disallow: /arquivos/”.

Para brincar um pouquinho mais com esse comando, você ainda pode bloquear o acesso a conteúdos que comecem com uma letra específica.

Para bloquear o acesso a todos as pastas e arquivos que comecem com a letra “J”, o comando seria “Disallow: /a”

Comando Allow

De maneira contrária, o comando Allow permite que você defina para os robôs de busca quais as páginas ou diretórios de seu site você deseja que sejam indexadas.

O uso do comando Allow é recomendado somente quando você precisar bloquear uma pasta ou diretório por meio do comando Disallow, mas gostaria de indexar um arquivo ou pasta que está dentro do diretório bloqueado.

Vamos supor que você queira bloquear o acesso à pasta “Pagamentos”, mas precisar liberar o acesso à página “boletos.php”, nesse caso, as linhas de comando seriam:

Disallow: /Pagamentos/

Allow: /Pagamentos/boletos.php

Comando Sitemap

Como citamos anteriormente, o arquivo robots.txt pode fazer a indicação do sitemap de sua página.

Essa função é bastante útil para auxiliar os robôs de busca a identificarem todas as páginas existentes em seu site.

Para inserir o endereço de seu sitemap deve ter ele salvo na pasta raiz de seu site você e em seguida realizar o seguinte comando: 

Sitemap: https://www.seusite.com.br/sitemap.xml

Apesar de útil, esse comando caiu bastante em desuso tendo em vista que o Google Webmaster Tools permite informar o local de seu arquivo sitemap de forma mais simples e rápida.

Limitações do Robots.txt

robots.txt
Créditos: Canva.

Mesmo sendo importante e funcional para o direcionamento do acesso dos robôs de busca a sua página, o robots.txt possui algumas limitações.

Vejamos aqui 3 delas:

Instruções apenas diretivas

Apesar do robots.txt seguir o padrão do mercado, as ferramentas de busca não são necessariamente obrigadas a seguir todas as suas ordens.

Ou seja, mesmo que os robôs de busca do Google sigam as instruções do arquivo robots.txt o do Bing pode não fazer o mesmo.

Nessa realidade, é fundamental que você utilize outros métodos em conjunto para ocultar suas páginas do Google.

Adicione recursos como acesso protegido por senha ou uso das meta tags no index em seu código html.

Cada Cralwer (robô de busca) interpreta a sintaxe de maneiras diferentes

Cada robô de busca pode interpretar os comandos inseridos no robots.txt de uma forma diferente.

Então, para garantir a sua correta utilização, é recomendado que você estude a sintaxe mais adequada para cada ferramenta de busca.

A verdade é que é comum que as pessoas foquem em aprender a sintaxe do Google mas esquece que também é de suma importância conhecer qual a metodologia do Bing, Yahoo e qualquer outra ferramenta de busca do mercado.

Pode ser que você tenha de dar direcionamentos a robôs específicos

O robots.txt segue os padrões internacionais porém alguns robôs de busca seguem regras e lógicas próprias.

Dessa forma, você pode se tornar refém das regras de cada um deles no seu arquivo robots.txt.

Isso pode acabar sendo mais trabalhoso e ainda aumentar a probabilidade de erros durante a criação de seus arquivos.

Então, na hora de montar as regras, atente-se para as regras específicas de cada robô, para que as instruções estejam claras para cada um deles.

Conclusão

Como você viu ao longo desse texto, o domínio dos robots.txt pode ser bastante funcional, se tornando um fator muito importante para o sucesso ou fracasso de sua estratégia de SEO

Ao estudar a sintaxe e entender melhor sobre as regras de cada mecanismo de busca, você poderá contar com uma gestão de seu site facilitada.

Afinal, será garantido que apenas as páginas importantes para seu negócio sejam visitadas pelos robôs de busca.

Não tenha medo de testar e se aprofundar melhor nessas estratégias.

Agora que você já conhece os principais comandos, comece testando e veja o que é mais adequado para o seu site!

Você gostou desse conteúdo? Tem muito mais esperando por você aqui no nosso blog! Explore e conheça mais recursos e ferramentas do Google lendo os nossos artigos.

Receba as últimas novidades

Inscreva-se em nosso boletim informativo e receba conteúdos exclusivos de SEO e Marketing digital.

Conteúdos semelhantes

  • All Posts
  • Content
  • Conteúdo
  • Email Marketing
  • Empreendedorismo
  • HR
  • Marketing
  • Marketing
  • PPC
  • SEO
  • SEO
  • Social Media
  • User Experience
    •   Back
    • Content Marketing
    • Content Strategy
    • Content Creation
    • Content Trends
    •   Back
    • Estratégia de SEO
    • Pergunte a um SEO
    • SEO para Negócios
    • SEO Internacional
    • Link Building
    • SEO Local
    • SEO Mobile
    • SEO On-Page
    • SEO Técnico
    • SEO para WordPress
    • Desenvolvimento Web
    •   Back
    • Criação de Conteúdo
    • Estratégia de Conteúdo
    • Marketing de Conteúdo
    • Trends de Conteúdo
    •   Back
    • SEO strategy
    • Ask an SEO
    • Enterprise SEO
    • International SEO
    • Link Building
    • Local SEO
    • Mobile SEO
    • On Page SEO
    • Technical SEO
    • SEO for WordPress
    • Web Development
Ver mais

Fim do conteúdo

  • All Posts
  • Content
  • Conteúdo
  • Email Marketing
  • Empreendedorismo
  • HR
  • Marketing
  • Marketing
  • PPC
  • SEO
  • SEO
  • Social Media
  • User Experience
    •   Back
    • Content Marketing
    • Content Strategy
    • Content Creation
    • Content Trends
    •   Back
    • Estratégia de SEO
    • Pergunte a um SEO
    • SEO para Negócios
    • SEO Internacional
    • Link Building
    • SEO Local
    • SEO Mobile
    • SEO On-Page
    • SEO Técnico
    • SEO para WordPress
    • Desenvolvimento Web
    •   Back
    • Criação de Conteúdo
    • Estratégia de Conteúdo
    • Marketing de Conteúdo
    • Trends de Conteúdo
    •   Back
    • SEO strategy
    • Ask an SEO
    • Enterprise SEO
    • International SEO
    • Link Building
    • Local SEO
    • Mobile SEO
    • On Page SEO
    • Technical SEO
    • SEO for WordPress
    • Web Development
Ver mais

Fim do conteúdo

Quer saber qual a melhor estratégia de SEO para seu negócio?

Entre em contato e receba um diagnóstico gratuito de nossos especialistas para lhe ajudar a aumentar o tráfego para seu site e vender mais!

Language