Robots.txt

Robots.txt

El archivo robots.txt es un archivo que restringe el acceso a los robots de los motors de búsqueda que rastrean la web. Estos robots reastrean las páginas automáticamente, pero antes de acceder a ellas, comprueban si existe el archivo robots.txt que les indique las reglas del sitio.

Normalmente no se utiliza pero si se desea excluir parte del sitio web en los buscadores es necesario crear un fichero con ese nombre y incluirlo en el directorio raiz del sitio web (http://www.dominio.com/robots.txt).

The robots.txt file is a simple text file that must be placed in your root directory (http://www.example.com/robots.txt). It tells the search engine spider which web pages on your website should be indexed and which web pages should be ignored.

Una entrada contiene información especial para los buscadores y cada entrada consiste de dos campos: el user agent y una o más lineas disallow. Por ejemplo:

User-agent: googlebot
Disallow: /cgi-bin/

Este robots.txt permitiría al “googlebot” que es el robot de Google, para rastrear todas las páginas excepto las del directirio “cgi-bin”. Todos los archivos dentro del directorio “cgi-bin” seran ignorados por el robot.

Otro ejemplo sería el siguiente:

User-agent: *
Disallow: /cgi-bin/
Disallow: /imagenes/

En este caso se bloquearía a todos los rastreadores acceder a los directorios cgi-bin y imagenes.

Nuevos comandos? Algunos webmasters han descubierto que Google está experimentando con un comando Noindex para el robots.txt y que basicamente hace lo mismo que el Disallow, por lo que no está claro para que Google lo usará.

Otros comandos que podría estar probando son el Noarchive y Nofollow, de todas formas no son oficiales aún.