Como excluir todos os robôs exceto Google e Bing usando meta-tags?
Olá.
Eu quero que todos os robôs de busca, com exceção do Googlebot e do Bingbot, não indexem nem sigam os links em minha página. Eu espero conseguir isso usando o seguinte:
<meta name="robots" content="noindex,nofollow" />
<meta name="googlebot" content="index,follow,noarchive,noodp" />
<meta name="bingbot" content="index,follow,noarchive,noodp,noydir" />
Mas isso só irá funcionar se, ao processar a primeira regra, os robôs do Google e da Microsoft não ignorem a segunda regra e que esta sobrescreva a primeira (index,follow sobrescreve noindex,nofollow). O problema é que não tenho certeza de que isso vá acontecer e não quero correr o risco de testar por conta própria. Alguém aí tem alguma ideia de como esses robôs processam isso?
Obs: Eu sei como fazer isso usando o arquivo robots.txt, mas como há robôs que ignoram o robots.txt e usam apenas as meta-tags, eu quero repetir as regras também nas páginas HTML.
---
Edit:
Eu achei uma questão idêntica a minha no Google Groups.
O participante Chris Hunt levanta algumas questões interessantes...
Google diz que: "Se dois valores conflitam, nós usaremos o que for mais restritivo"
Portanto, se você colocar:
<meta name="robots" content="noindex" />
<meta name="robots" content="index" />
Ele irá usar a regra mais restritiva, ou seja, NOINDEX.
Mas não diz sobre qual dos escopos tem mais procedência, se o genérico ("robots") ou o específico ("gooblebot").
<meta name="robots" content="noindex" />
<meta name="googlebot" content="index" />
Googlebot iria indexar ou não?
"If you want to provide different instructions for different search engines (for instance, if you want one search engine to index a page, but not another), it's best to use a specific meta tag for each search engine rather than use a generic robots meta tag combined with a specific one."
(Se você quer prover diferentes instruções para diferentes motores de busca (por exemplo, se você que um motor de busca indexe a página, mas não outro), é melhor usar uma meta tag específica para cada motor de busca do que usar a tag genérica.)
Isso parece estar dizendo, implicitamente, que a tag genérica tem prevalência sobre as tags específicas.
Por fim, o balde de água fria definitivo:
JohnMu:
For the robots meta tag, the effects are cumulative with regards to the restrictions, eg:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="GOOGLEBOT" CONTENT="INDEX, FOLLOW, NOODP, NOIMAGEINDEX">
would result in Googlebot treating it as a noindex, nofollow, noodp, noimageindex. This is different than the robots.txt file.
You cannot provide more restrictive directives for the generic "robots" setting than for individual crawlers.
Discussão (6)
Carregando comentários...