Robots.txt: ¿Para qué sirve el archivo y como se puede generar?

Cada vez que pienso en el Archivo Robots.txt, me vienen a la mente ~~los juegos de azar y las mujerzuelas~~ temas relacionados con los recursos Web.

Pues, los Robots.txt son archivos utilizados para mejorar la navegación de un algoritmo rastreador de búsqueda en un sitio web. Este archivo nos indica cuáles páginas pueden y no pueden ser añadidas en los motores de búsqueda.

Entonces, una correcta indexación de nuestro sitio, es parte crucial del éxito de cualquier estrategia de posicionamiento orgánico.

Para hacerlo, debemos pensar en estrategias de SEO, de Marketing de Contenidos, y otras acciones relevantes que puedan traccionar el tráfico web.

Pero, también puede ocurrir que querés que ciertas URLs no se indexen a los motores de búsqueda. Esto puede ocurrir en páginas de cierta exclusividad, o incluso en páginas de inicio de sesión. Pues, pertenecer tiene sus privilegios.

En cualquier caso, sí queremos o no, indexar ciertas URLs, necesitamos del archivo Robots.txt. ¡Veamos de que trata esto!.

¿Qué es el archivo robots.txt?

El Robots.txt es un archivo que debe guardarse en la carpeta raíz de tu sitio. Este pequeño documento de texto, indica a los robots crawlers cuáles URLs de tu sitio no deben ser accesibles desde los motores de búsqueda. Por cierto, ésta actividad la podemos ver desde Search Console, en la parte del Crawl Budget.

Como lo indica su nombre, el robots.txt es un archivo de texto plano, o .txt. El cual, se puede hacer desde cualquier bloc de notas, sin necesidad de herramientas complejas para crearlo.

Básicamente, el Robots.txt usa un estándar del Protocolo de Exclusión de Robots. Pues, este utiliza un conjunto de directrices que los robots de búsqueda utilizan en los directorios de tu sitio donde no se puede acceder.

El archivo se guarda en la carpeta raíz del sitio, para acceder al robots.txt debemos escribir la dirección web y agregar /robots.txt en la URL.

Entrar al Robots.txt de la competencia, es interesante para ver que URLs están queriendo ocultar. Esto sirve para comprender el objetivo SEO de estas empresas.

¿Para qué sirve el archivo robots.txt?

Como lo comenté en el punto anterior, este archivo sirve para dar órdenes específicas a los motores de indexación. En especial, está relacionado con el acceso o no acceso de los diferentes recursos. Veamos algunas funciones:

1. Controlar el acceso a las imagenes desde la web

Robots.txt evita que las imagenes de tu página web aparezcan en los resultados de búsqueda. Pues, ayuda a controlar el acceso a dichos archivos importante, como infografías exclusivas, y detalles técnicos de un producto o servicio.

Entonces, como estos archivos son inaccesibles desde los resultados de búsqueda, el usuario tendrá la obligación de acceder a tu sitio web.

Sin embargo, es importante tener en cuenta que robots.txt no impide que los usuarios copien y compartan los enlaces de tus imágenes en otros lados. Para esto hay otras herramientas relacionadas con el copyright.

2. Controla el acceso a determinadas URLs

También, anula el acceso a URLs restringidas o irrelevantes para tu estrategia de posicionamiento. Pues, el Thin Content «contenido de poco valor» puede penalizar el posicionamiento de nuestro sitio web.

El robots.txt evita que el servidor de tu Host, se sobrecargue de resultados en los motores de búsqueda, ayudando a tu empresa a ahorrar dinero. Pues, caso contrario requerirás un upgrade en el servicio.

Sin embargo, los usuarios aún pueden encontrar dichas URLs a las cuales acceden de forma directa mediante un link.

3. Bloquear el acceso de archivos de recursos

Además de bloquear imágenes y URLs, podemos bloquear los diferentes archivos de recursos de nuestro sitio web. Esta función es muy importante para nuestra seguridad. En especial sí somos una página web que trabaja con cursos y demás sistemas de educación.

Desde los motores de búsqueda hasta el archivo Robots.txt

Primero, tenemos que entender que los motores de búsqueda como Google usan pequeños fragmentos de código para analizar el contenido de los sitios web. Así es como obtienen los datos para las consultas que se hacen en el buscador.

Luego, los robots de búsquedas, analizan el contenido de tu sitio y guardan cualquier información que encuentran. Incluso esa información que no querés que sea pública. Al finalizar, dicho contenido se indexará, y en consecuencia, aparecerá en Google.

Es ciertas ocasiones, algunos robots son agresivos «botnet maliciosa», y hacen muchas peticiones al servidor que pueden llegar a bloquear ciertas URLs. Dicho proceso, puede provocar que el sitio deje de funcionar. Entonces, este proceso conocido cómo ataque DDoS, puede ser bloqueado solo sí es este muy simple.

Recordemos que con el archivo robots.txt podemos bloquear determinados accesos. Para ello, debemos inhabilitar ciertos robots.

¿Cómo crear un archivo robots.txt?

Crear un archivo robots.txt es muy simple, solo requiere el conocimiento de unos pocos comandos específicos. Pues, este archivo se puede hacer en un programa tan simple como el bloc de notas de tu computadora u otro editor que utilice texto plano.

También necesitarás acceso a la carpeta raíz de tu dominio. Pero, esto generalmente, depende de tu servidor o de tu CMS.

Para crear un archivo robots.txt, debes acceder a la raíz de tu dominio, donde guardará el archivo que creaste. Después de eso, necesitarás conocer algunos de los comandos y la sintaxis de robots.txt.

¿Cuáles son los comandos del archivo robots.txt?

Los comandos en robots.txt funcionan de manera similar a HTML y los diversos lenguajes de programación en el mercado. Entonces, hay comandos que los robots seguirán para navegar y encontrar las páginas de tu sitio.

Estos son algunos de los comandos principales del archivo robots.txt:

1. Comando de User-Agent

Puedes ingresar órdenes específicas para cada robot de búsqueda en tu archivo robots.txt por medio del comando User-agent. De esta forma podremos determinar qué robot queremos que acceda a nuestro contenido.

Para conocer el nombre de cada User-agent, puedes consultar la base de datos de Web Robots ?. En ella podremos ver cuáles son los principales robots de los motores de búsqueda.

El robot de búsqueda principal de Google es Googlebot. Entonces, sí quisieras darle órdenes específicas, el comando que deberías ingresar en tú robots.txt sería este:

User-agent: Googlebot

Si quisieras dejar órdenes específicas para el robot de búsqueda de Bing, el comando sería este:

User-agent: Bingbot

Como puedes ver, tienes simplemente que cambiar el nombre del User-agent.

Y si deseas ingresar la dirección general que deben seguir todos los robots de búsqueda, simplemente reemplaza el nombre del User-agent con un asterisco. Sería así:

User-agent: *

2. Comando Disallow

El comando Disallow es responsable de describir qué páginas de directorio o sitios web no deben incluirse en los resultados de búsqueda.

Al igual que el comando User-agent, simplemente ingresa la dirección de la página después del comando. Para guiar a los robots a que no accedan a la página login.php de tu sitio, el comando sería este:

Disallow: /login.php

Aún puedes evitar el acceso a carpetas específicas. Sí necesitás bloquear el acceso a la carpeta /archivos, el comando sería este:

Disallow: /archivos/

También se puede bloquear el acceso al contenido que comienza con una letra específica. Para bloquear el acceso a todas las carpetas y archivos que comienzan con la letra t, este sería el comando:

Disallow: / t

3. Comando Allow

El comando Allow le permite determinar para los robots de búsqueda qué páginas o directorios de tu sitio desea indexar. Por defecto, todas las URLs de tu sitio se indexarán, excepto cuando utilice el comando Allow.

Entonces, se recomienda usar el comando Allow solo cuando necesites bloquear una carpeta o directorio. Pero te gustaría haber indexado un archivo o carpeta específico que está dentro del directorio bloqueado.

Pues, sí deseas bloquear el acceso a la carpeta /archivos, pero necesitas permitir el acceso a la página /productos.php, el comando se vería así:

Disallow: / archivos /
Allow: /files/products.php

Entonces, sí queremos bloquear el acceso a la carpeta /archivos, pero necesitas permitir el acceso a la carpeta /proyectos, el comando sería así:

Disallow: / archivos /
Allow: / archivos / proyectos /

4. Comando del Sitemap

Por último, otro comando útil para un archivo robots.txt es indicar el Sitemap de tu página. Este te ayudará con los robots de búsqueda, pues, facilitará la identificación de todas las URLs de tu sitio.

Sin embargo, es un comando en desuso, principalmente debido a la practicidad de Google Search Console. Pues, el proceso de indexado es mucho más veloz que el crawling automático del sitio web.

Ahora se busca que el usuario suba el Sitemap en Google Search Console. Para esto, necesitamos el propio mapa y tener Google Search Console disponible.

Para ingresar la dirección de tu Sitemap, debes haber guardado tu archivo de Sitemap en la carpeta raíz de tu sitio. Entonces, el comando para ingresar esta dirección en tu sitio es este:

https://tupacbruch.com/sitemap.xml

Luego entramos a Google Search Console, y lo ingresamos desde la barra lateral, donde dice Sitemap.

¿Cuáles son las limitaciones de robots.txt?

Si bien es útil para dirigir el acceso del motor de búsqueda a tu página, es importante reconocer que robots.txt tiene algunas limitaciones. Conocerlos es fundamental, especialmente para identificar la necesidad de usar otros dispositivos para que tus URL no se encuentren fácilmente en las búsquedas.

1. El Robots.txt no obliga a los motores

Aunque el uso de robots.txt sea un estándar de la industria, los motores de búsqueda no están obligados a seguir todos tus pedidos.

Esto significa que si bien los robots de búsqueda de Google siguen las instrucciones del archivo robots.txt, puede que otros no. Entonces, deberíamos aplicar otros métodos complementarios para ocultar determinados contenidos sensibles.

Podríamos incluir metaetiquetas noindex en el código HTML, o directamente proteger la URL con una contraseña.

2. Problemas de interpretación semántica

A pesar de ser un estándar internacional, los comandos ingresados ??en robots.txt pueden ser interpretados de manera diferente por cada robot de búsqueda.

Por lo tanto, para garantizar su uso correcto, es necesario conocer la sintaxis ideal para cada motor de búsqueda.

Esto significa que, tenemos que comprender cómo el Googlebot interpreta la información del archivo robots.txt. Pero, es posible que también necesites aprender la metodología de Bing, y del resto de los motores de búsqueda relevantes.

3. El Robots.txt no puede bloquear a los usuarios

Como lo mencioné más arriba, un error común es el de pensar que el archivo robots.txt bloquea todo. Pero, en la realidad, solo bloquea a los robots de búsqueda, más no a los usuarios. Entonces, cualquier persona con el link, podría acceder tranquilamente al contenido.

En el caso de que quisiéramos bloquear a todo el mundo, tenemos las opciones de la etiqueta noindex, o de poner contraseña.

4. Debemos ser específicos con cada robot

Algunos robots de búsqueda ~~hacen la suya~~ siguen tus propias reglas y lógica. Entonces, esto genera problemas extra, porque cada uno de estos necesita sus propias directrices.

Y además de aumentar tu carga de trabajo, esto puede provocar errores al crear tus archivos.

Por lo tanto, ten mucho cuidado al establecer reglas para robots específicos, asegurándose de que las instrucciones sean claras para cada robot.

5. No puede bloquear todos los ataques DDoS

Con nuestro archivo Robots.txt podremos bloquear los ataques desde algunas pequeñas botnets específicas.

Pero, en general, los ataques DDoS se realizan desde botnets enormes, gigantescas. E intentar bloquearlas con uno de estos archivos parece un chiste ~~se te mueren de risa los atacantes~~.

Creando un archivo robots.txt en WordPress

Ahora que sabemos lo que es, vamos a ver como se puede crear uno para tu sitio.

1. ¿Dónde colocar el fichero robots.txt?

Hay que colocarlo en el raíz del alojamiento. Entonces, sí tienes un alojamiento tipo cPanel lo colocarás dentro de la carpeta public_html a la que puedes llegar desde el administrador de archivos de cPanel.

Entra al Panel de Control cPanel
Pulsa en el icono Administrador de Archivos
A la izquierda, en el árbol de ficheros, pulsa en la carpeta public_html para marcarla.
Pulsa en + Archivo para crear un nuevo fichero. Llámalo robots.txt y pulsa en el botón Crear nuevo archivo.

2. Contenido de robots.txt

Seguimos en el administrador de archivos, pulsa sobre el fichero robots.txt y pulsa en el menú Editar.
Añade este contenido que te explico más adelante:

User-agent: * Allow: /

La primera línea indica que todos los robos tienen acceso, ya que se usa el carácter comodín (*). En la segunda línea da permiso para entrar a todos los recursos.

Guarda los cambios.

Ahora te enseño algunos ejemplos de configuración habituales:

Para bloquear un directorio o una página

Si querés bloquear el acceso del robot de Google a unas páginas concretas utiliza este ejemplo:

User-agent: Googlebot Disallow: /category/ Disallow: /wp-admin/

Para bloquear ficheros por extensión

User-agent: * Disallow: /*.zip$

Para bloquear un robot

En este ejemplo encontrarás como bloquear un robot y permitir el acceso al resto:

User-agent: * Allow: / User-agent: Googlebot Disallow: /

Y si usas WordPress te recomiendo usar este fichero robots.txt que mejora la seguridad.

3. Comprobar que funciona

Primero tenés que probar que el fichero se ve en Internet. Utiliza un navegador, navega a la dirección de tu dominio y añade al final /robots.txt, tiene que aparecer el contenido del fichero como aquí:

https://tupacbruch.com/robots.txt

Ahora solo falta esperar unos días a que Google actualice los resultados de búsqueda.

Conclusión:

Bueno, vimos lo que hace el archivo Robots.txt. Pues, debemos recordar que no bloquea todo, para ello debemos recurrir a otros recursos externos, lo más recomendable es utilizar contraseña en dichas URLs.

También es una idea inteligente recurrir al sitemap para indexar nuestro sitio, pues, es mucho más veloz. Además, debemos evitar el uso del robots.txt para hacer malas prácticas como el cloaking, pues seremos penalizados por Google.

Para finalizar te dejo este banner con 25 dólares para tu próximo sitio en WordPress, y así, aplicar lo aprendido.

¡Sin más que agregar, me despido hasta el próximo post!

Consigue 25 dólares para tu sitio WordPress — **Consigue 25 dólares para tu próximo sitio WordPress**

FAQs sobre el Robots.txt

¿Necesito un Robot.txt?

No es imprescindible, ya que los robots podrán acceder a tu sitio aunque no lo tengas, sin embargo es recomendable crear el fichero robots.txt por estos dos motivos…

¿Dónde va el archivo robots.txt?

Hay que colocarlo en el raíz del alojamiento. Sí tienes un alojamiento tipo cPanel lo colocarás dentro de la carpeta public_html a la que puedes llegar desde el administrador de archivos de cPanel.

¿Cómo se que está bien el robot.txt?

Primero tienes que probar que el fichero se ve en Internet. Utiliza un navegador, navega a la dirección de tu dominio y añade al final /robots.txt, tiene que aparecer el contenido del fichero como aquí

¿Qué te ha parecido?

Excited

Happy

In Love

Not Sure

Silly

Bruchentko

Escribiendo por ahí...