tractatus@lapipaplena:/# _

robots.txt

Archivo que evita que determinado contenido de un sitio web sea indexado por los motores de búsqueda. Este archivo distingue mayúsculas y minúsculas, puede incluir comentario mediante almohadilla [#] y cada grupo User-agen/Disallow debe de estar separado por una linea en blanco.

Algunos comandos:

User-agent (Indica qué tipo de robot debe cumplir con la directiva que se indica)

User-agent: * (Incluir todos los buscadores)
User-agent: Googlebot (Especificar el buscador de Google)
User-agent: Bingbot (Especificar el robot de Bing)

Disallow (Niega el acceso a un directorio, un archivo o una página)

Disallow: (Permite la entrada a todo el sitio)
Disallow: / (Denegar todo el sitio)
Disallow: /directorio/ (Denegar un directorio)
Disallow: /restringido*/ (Denegar directorios que comienzan por "restringido")
Disallow: /pagina.html (Denegar una página)
Disallow: /*.png$ (Denegar los archivos que terminen con la extensión .png)

Allow (Permitir el acceso a directorios, archivos o páginas)

Allow: /directorio/subdirectorio/ (Permitir un subdirectorio)

Sitemap (Indica la ruta a un mapa del sitio en XML)

Sitemap: http://web.com/sitemap.xml

Crawl-delay (Indica número de segundos que debe esperar para cada acceso a cada página)

Crawl-delay: 30

Aspecto que puede presentar un archivo robots.txt:

User-agent: wget
Disallow: /
\\ linea en blanco
User-agent: grub-client
Disallow: /
\\ linea en blanco
User-agent: *
Disallow:
\\ linea en blanco
Sitemap: https://tractatuslapipaplena.herokuapp.com/sitemap.xml