Archivo que evita que determinado contenido de un sitio web sea indexado por los motores de búsqueda. Este archivo distingue mayúsculas y minúsculas, puede incluir comentario mediante almohadilla [#] y cada grupo User-agen/Disallow debe de estar separado por una linea en blanco.
Algunos comandos:
User-agent (Indica qué tipo de robot debe cumplir con la directiva que se indica)
User-agent: * (Incluir todos los buscadores)
User-agent: Googlebot (Especificar el buscador de Google)
User-agent: Bingbot (Especificar el robot de Bing)
Disallow (Niega el acceso a un directorio, un archivo o una página)
Disallow: (Permite la entrada a todo el sitio)
Disallow: / (Denegar todo el sitio)
Disallow: /directorio/ (Denegar un directorio)
Disallow: /restringido*/ (Denegar directorios que comienzan por "restringido")
Disallow: /pagina.html (Denegar una página)
Disallow: /*.png$ (Denegar los archivos que terminen con la extensión .png)
Allow (Permitir el acceso a directorios, archivos o páginas)
Allow: /directorio/subdirectorio/ (Permitir un subdirectorio)
Sitemap (Indica la ruta a un mapa del sitio en XML)
Sitemap: http://web.com/sitemap.xml
Crawl-delay (Indica número de segundos que debe esperar para cada acceso a cada página)
Crawl-delay: 30
Aspecto que puede presentar un archivo robots.txt:
User-agent: wget
Disallow: /
\\ linea en blanco
User-agent: grub-client
Disallow: /
\\ linea en blanco
User-agent: *
Disallow:
\\ linea en blanco
Sitemap: https://tractatuslapipaplena.herokuapp.com/sitemap.xml