¿Qué es robots.txt?
Según Moz, robots.txt es un archivo de texto que los webmasters crean para instruir a los robots web (típicamente robots de motores de búsqueda) sobre cómo rastrear páginas en su sitio web.
What is a Robots.txt? (Moz.com)
Básicamente el archivo robots.txt indica a los buscadores como Google que partes de la web queremos que acceden sus rastreadores. Por ejemplo, el checkout de tu web o la parte de pedidos del usuario.
???? El robots.txt sólo se considera una indicación y los buscadores no tienen obligación de seguir sus directrices.
¿Qué directrices o reglas puede incluir un robots.txt?
Hay cuatro directrices comunes que un robots.txt puede contener.
User Agent
Indica a qué robot afectan las directrices.
Ejemplo: User-agent: Googlebot
Allow
Indica al robot qué secciones le está permitido rastrear.
Ejemplo: Allow: /album
Disallow
Indica al robot (cómo sugerencia) qué partes de la web no queremos que se rastreen.
Ejemplo: Disallow: /checkout
Sitemap
Hace una refencia al XML sitemap de tu web para que los buscadores lo encuentren fácilmente.
Ejemplo: Sitemap: https://www.mysite.com/sitemap.xml
Que NO debes incluir en un robots.txt
Hace unos meses, Google dijo oficialmente que se evitara incluir directrices «noindex» en el robots.txt.
Que SÍ puedes incluir en un robots.txt
Además de las directrices comentadas anteriormente, puedes incluir comentarios de guía en tu robots.txt siempre que vengan precedidos por un «#»
¿Por qué un SEO necesita analizar el robots.txt?
- Para asegurarse de que ninguna parte importante de la web está bloqueada a los buscadores.
- Para asegurarse de que hay una referencia el XML sitemap en el robots.txt
- Para asegurarse de que los parámetros incluidos en las directrices son correctos.
???? No bloquees los css con el robots.txt.
- Para saber si hay diferencias entre la capacidad de rastreo entre un robot (Googlebot) y otro (Bingbot).
Cómo crear un robots.txt
Estos son los pasos a seguir para crear un archivo robots.txt:
- Crea un archivo de texto plano (con tu bloc de notas por ejemplo).
- Introduce las directrices que quieres incluir en tu robots.txt.
- Guarda el archivo con formato «.txt» y llámalo «robots» de forma que el nombre final junto al formato sea «robots.txt».
- Sube este archivo al directorio raíz de tu web de forma que quede ubicado en: https://www.tusite.com/robots.txt
Errores comunes a evitar en tu robots.txt
Estos son algunos errores que no debe tener tu archivo robots.txt
Directriz «no index»
Recuerda que Google no admite incluir esta directriz en el archivo. Aquí un artículo de Search Engine Land explicándolo.
Directrices siempre en minúsculas
El archivo robots.txt debe incluir el URL path en el mismo formato en el que se encuentran en tu web. Generalmente, en minúsculas.
Trailing slash (/)
Es un error común añadir «/» después de una URL.
Ejemplo: «/categoria/» en lugar de «/categoria»
Olvidar usar (/) al principio de la URL
Al excluir una URL en una regla en robots.txt, esta debe empezar por «/».
Bloquear una página etiquetada como «no index» a través de robots.txt
Si tenemos una regla en robots.txt que bloquea esta página a los buscadores y posteriormente añadimos una etiqueta no index, los robots nunca verán esta etiqueta al no poder rastrear la página en un primer paso.
¿Dónde está el archivo robots.txt en WordPress?
El archivo robots.txt en wordpress se encuentra, por lo general en tu directorio raíz. Este directorio se encuentra en una carpeta denominada «public_html» o «html» o «www» o «nombre de tu web».
???? Ten en cuenta que WordPress configura un archivo robots.txt por defecto que no es accesible. Para hacer cambios en él, debes crear tu propio archivo y subirlo a la carpeta raíz.
¿Cómo crear un archivo robots.txt en WordPress?
Hay varios métodos para crear un archivo robots.txt en wordpress. Depende de tu nivel de conocimiento y de con cuál te sientas más cómodo.
1 – Editar el archivo robots.txt con el plugin de Yoast SEO
Si usas el pugin de Yoast SEO, puedes generar tu propio archivo robots.txt. Con él puedes crear y editar un robots.txt desde tu propio WordPress.
- En el panel izquierdo de tu dashboard de WordPress ve a «SEO» (opciones del plugin de Yoast) y luego a «Tools» (Herramientas).
2. Dirígete a la opción «File Editor» (Editor de Archivos). Esta es la opción que te permitirá editar archivos de tu instalación wordpress como el robots.txt
3. En la siguiente página, Yoast te dará la opción de editar tu Robots.txt (si ya tienes un archivo) o crear un nuevo.
4. Haz click en «create robots.txt file» y Yoast creará automáticamente tu robots.txt. En caso de ya tenerlo, te permitirá editar las directrices dentro del robots.txt ya existente. Una vez hecho los cambios, haz click en «save changes to robots.txt».
2 – Editar el archivo robots.txt con el plugin de RankMath SEO
Si tu plugin de SEO preferido es RankMath SEO (personalmente es el que uso), también encontrarás una opción para editar el robots.txt.
- En el panel izquierdo de tu dashboard wordpress dirígete a las opciones de «Ajustes Generales» del plugin Rankmath SEO.
- Ahora dirígiete a la opción de «Editar robots.txt» para ver el archivo que el plugin ha generado automáticamente y poder editarlo.
Si no modificaste este archivo desde la instalación de la web, el propio plugin habrá generado un archivo por defecto. Para configurarlo, simplemente escribe las reglas en el cajón y haz click en «guardar cambios».
???? Si ya tienes un archivo robots.txt en la carpeta raíz de tu sitio, los cambios aquí no tendrán efecto. Tendras que usar tu cliente FTP o cpanel para editar ese archivo de forma manual. Puedes también borrarlo y editar uno nuevo desde estas opciones.
3 – Crear y editar un archivo robots.txt de forma manual y subirlo usando un cliente FTP
- Lo primero que necesitas para aplicar este método es instalar un cliente FTP. El que yo uso es FileZilla pero hay más.
Un cliente FTP emplea el FTP para conectarse a un servidor FTP para transferir archivos a un alojamiento. Wikipedia
- Una vez tengas descargado el cliente, conéctate a tu servidor de WordPress.
???? Si no sabes cómo, lee aquí: Cómo acceder a WordPress mediante FTP (WPNovatos)
- Una vez dentro, en tu directorio raíz verás el archivo robots.txt tal y cómo indiqué más arriba. Te pego aquí la captura de nuevo. El archivo robots.txt es un archivo de texto así que puedes descarglo a tu ordenador y editarlo con el bloc de notas.
???? Yo uso un bloc de notas más avanzado llamado Notepad ++ que es mucho más visual.
- Si no lo ves muy probablemente no tienes uno. En ese caso debes crear tu archivo robots.txt. Para ello sólo tienes que abrir tu bloc de notas y guardar las directrices que quieras incluir.
Si necesitas uno muy simple para wordpress que no bloquee ninguna parte de la web clave y de vía libre a los bucadores para rastrear tu sitio puedes copiar este.
Sólo necesitas modificar la URL de tu sitemap.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /
Sitemap:https://tusite.com/sitemap.xml
Si prefieres generar uno de forma automática busca «robots.txt generator» en Google. Este generador de robots.txt lo encontré así.
¿Cómo saber si robots.txt funciona?
La mejor de forma de saber si tu archivo robots.txt funciona es probarlo en Google Search console para encontrar errores.
???? La herramienta está un poco escondida así que te dejo el enlace del robots.txt tester aquí.
Una vez selecciones la propiedad para lo que quieres combrobar tu archivo robots.txt, aterrizarás en la siguiente pantalla:
En esta pantalla, podrás comprobar si cualquiera de las partes de tu web son acessibles. Para ello, sólo añade un directorio o una URL específica en la barra inferior y haz click en «Test».
Si el mensaje es correcto, aparecerá un mensaje de confirmación en color verde.
Si el mensaje es incorrecto, verás un mensaje de error y la línea en la que se produce ese error señalada.
Ejemplos de robots.txt
Hay muchos tipos de estructuras de robots.txt A mi siempre me ha llamado la atención el de nike.com.
Para saber más: artículos sobre robots.txt
Si quieres ver más ejemplos y aprender más sobre el robots.txt aquí tienes algunos artículos interesantes.