Entiendo cómo una URL puede acabar en conocimiento de Google aún cuando los dueños del sitio web al que pertenece esa dirección hayan expresado de forma explícita en su fichero robots.txt que no quieren que sea indexada. Lo que no entiendo es por qué Google se empeña en mostrar esa URL en los resultados.
 |
Figura 1: URL en los resultados de Google de un sitio protegido por robots.txt en |
Sin embargo, no acabo de entender el sentido por el que Google decide que esa información deba mostrarse. ¿No sería más sensato que si una URL está marcada con robots.txt para no aparecer que Google no la muestre en los resultados?
 |
Figura 2: Título de una URL protegida por robots.txt en los resultados de Google |
Al final, si metes la URL y ofreces el comando inurl el efecto es que has indexado la URL. De hecho, esto es tan así que incluso en muchas ocasiones indexa el título, por lo que no sólo aparecen en los resultados de inurl, sino que también en los de intitle o cualquier cadena que pueda estar en el texto del título.
 |
Figura 3: Título y URL en los resultados de BING. Protegida por robots.txt |
En
BING, esto también funciona así y La pregunta que me
persigue es, inevitablemente: ¿Por qué las muestran? ¿Por qué no las
ocultan simplemente? ¿Por qué lo hacen así los
buscadores? ¿Por qué?
http://www.elladodelmal.com
de Chema Alonso