Muchas veces hemos oído hablar de que los buscadores rastrean nuestras páginas web, para ver lo que hay dentro de ellas, pero podemos controlar donde pueden entrar y donde no, bueno…relativamente.

Aquí es donde entra el archivo robots.txt, el cual deberíamos tener todas las webs para dar información a los motores de búsqueda de donde pueden entrar y donde no.

 

¿Qué es robots.txt?

El robots.txt es un archivo de texto el cual mediante una serie de códigos “recomienda” a los buscadores, que páginas pueden o no rastrear dentro de nuestra web. Ojo he puesto recomienda, porque realmente es una recomendación, aunque la suelen respetar, también se la pueden saltar.

Estas indicaciones se especifican “autorizando o desautorizando” dichas páginas.

 

¿Por qué es importante el archivo robots.txt?

Cuando en nuestro archivo robots.txt damos recomendaciones a los rastreadores, lo que hacemos es dar indicaciones de que hay Urls que no deben ser rastreadas, por tanto le pondremos las cosas más fáciles al señor Google.

Dependiendo del tamaño de nuestra web, de la autoridad, etc, Google asigna un presupuesto de rastreo (crawl Budget) para que se pase e indexe nuestras Urls, pero si le hacemos “perder tiempo” en Urls que no nos interesa indexar, podemos vernos perjudicados y que no se indexen Urls que nos interesan.

Con este archivo podemos bloquear Urls duplicadas o no públicas, como pueden ser las áreas privadas e incluso archivos que no queramos que aparezcan en los resultados de búsqueda, tales como .Pdf, .doc, videos, etc.

Debemos tener muy en cuenta que, para una web pequeña no es necesario tener el archivo, no obstante si lo tienes, no te va a hacer ningún daño. Eso sí, si no lo tienes claro, es preferible no tenerlo, ya que si no lo haces bien, puedes perjudicar a toda la web, ya que Google lo primero que rastrea es el archivo robots.txt y si no tiene acceso él, durante 12 horas intentará rastrear tu archivo.

En el caso de que no consiga acceder en esas 12 horas, durante 30 días seguirá tu versión anterior de tu archivo robots. txt, por lo que seguirá las indicaciones de esa versión.

Si pasados esos 30 días, no ha tenido acceso al archivo, rastreará tu web como si no tuviera ningún archivo.

 

Ejemplo de un archivo robots.txt

Los robots.txt pueden ser muy sencillos o pueden ser enormes dependiendo de la web y de lo que queramos desautorizar.

Aquí te pongo un ejemplo de un robots.txt:

 

robots.txt

Vamos a hablar un poco más a fondo de los textos que vienen en un archivo robots.txt

 

User-agent

User-agent hace referencia a los buscadores, es decir, a que buscador le estamos dando la recomendación de rastrear o no nuestra página.

Como normal general ponemos user-agent: * esto significa que es para todos los buscadores, pero si por ejemplo ponemos user-agent: applebot, le estamos diciendo que la recomendaciones afecten solamente a los bots de Apple.

 

Disallow robots.txt

Disallow indica a los buscadores que no quieres que rastreen x páginas o carpeta de archivos, por ejemplo:

 

Disallow: /wp-admin

 

Indica a los buscadores que no queremos que rastreen la carpeta de admin de WordPress

En el caso de que queramos que no rastreen nada de nuestra web, debemos colocar en el robots.txt

 

Disallow: /

 

Allow robots.txt

Cuando indicamos Allow en nuestro robots.txt estamos dando la indicación de que se puede entrar a rastrear en la sección que indiquemos.

El comando allow no se suele poner, debido a que si no ponemos nada, los buscadores entienden que pueden entrar libremente a todas las partes de nuestra web.

Tenemos el ejemplo del robots.txt que nos crea WordPress en el que aparece lo siguiente:

disallow robots.txt

Esto significa que no queremos que se rastree el panel de administración de WordPress pero sí es necesario que lea el ajax en algunos pasos para ejecutar información.

 

Sitemap robots.txt

Otro comando importante en nuestro archivo robots.txt es el sitemap, esto ayudará a los buscadores a identificar todas nuestras páginas.

Previamente deberás haber guardado el sitemap en la carpeta raíz de tu sitio.

El comando que deberás poner en tu robots.txt es:

 

https://tudominio/sitemap_index.xml

 

Robots.txt en WordPress

Para ver, crear y editar robots.txt en WordPress es algo más sencillo de lo que parece, vamos a ver distintas formas de hacerlo.

 

Crear robots.txt

Para crear nuestro archive robots.txt en WordPress podemos hacerlo de distintias formas:

Una es con el plugin Yoast Seo, también lo podemos hacer con un bloc de notas, poniendo el código que necesitamos de nuestro robots.txt y lo subimos a la raíz de la web.

Cuando marcamos en las configuraciones de nuestro WordPress en Apariencia/Lectura “Pedir a los motores de búsqueda que no indexen este sitio” nos crea un archivo robots.txt en el que indica que esa web no está visible para ningún bots. Cuidado cuando pongamos la web en producción, acordaos de quitar el check, si no Google no accederá a vuestra web y por tanto, no la indexará.

robots.txt disallow

Yoast Seo robots.txt

Para editar nuestro robots.txt con el plugin Yoast Seo debemos ir a SEO/herramientas/editor de archivos y ahí creamos el nuestro, WordPress crea uno por defecto:

robots.txt disallow por defecto

Así mismo es interesante poner en nuestro archivo robots.txt el Sitemap de nuestra web, ya sabes todo lo que sea ponérselo fácil al señor Google…

robots.txt con sitemap

Robotos.txt con bloc de notas

Como hemos comentado anteriormente podemos crear nuestro robots.txt con el bloc de notas y posteriormente subirlo a Search Console:

robots.txt bloc de notas

Es importante que el nombre del archivo esté en minúscula y la extensión sea .txt.

Para subirlo a la raíz de la web, debemos ir a nuestro hosting y entrar en el administrador de archivos/public_html/carpeta del dominio donde queremos poner nuestro archivo y nos aparecerá un fichero robots.txt (en el caso de que lo tengamos creado anteriormente) y podemos reemplazarlo si lo hemos modificado o si no lo tenemos creado, subiremos el que tenemos nuevo.

También podemos modificarlo dentro del propio archivo alojado en nuestro hosting seleccionando el archivo robots.txt y botón derecho/editar (dependiendo de cada hosting)

 

Robots.txt Search Console

Anteriormente de podía subir el archivo de la sigueinte manera:

Para subir nuestro archivo robots.txt a Search Console debemos hacer lo siguiente, entramos en nuestro Search Console y en la parte izquierda vamos a Herramientas e Informes antiguos (esto puede cambiar ligeramente, Google cambia cada dos por tres), pinchamos en Más información y se nos abrirá una ventana de ayuda en la que podremos ver “Probador de robots.txt”, hacemos click ahí y se nos abrirá el probador de robots.txt, seleccionamos nuestra propiedad y nos aparecerá nuestro robots.

Ahí es donde pegamos nuestro fichero robots.txt y lo enviamos.

Desde hace bien poco Google ha cambiado y detecta el archivo de forma automática, una vez subido el archivo a nuestra web, lo primero que rastrean lo sbots de Google, es el robots.txt y posteriormente seguirá su camino conforme a las directrices que le hemos dato en nuestro archivo.

Si entramos en nuestro Search Console, en la parte de la derecha, podemos pinchar en ajustes, se nos abre una ventana donde podemos ver un informe de rastreo, lo abrimos y podremos ver algo como esto:

robots.txt search console

En la imagen podemos ver, el archivo, la fecha de comprobación, el estado, el tamaño, incidencias y tres puntitos a la derecha.

Importante destacar el estado y las incidencias.

En el estado nos dirá si lo ha obtenido o no y en las incidencias nos indicará el número de las mismas que pueda haber, en el caso de que no haya ninguna…¡¡alegría, todo está bien!!

En los tres puntitos, podemos solicitar un nuevo rastreo para que detecte nuestro archivo, esto se usa por si lo hemos modificado o lo hemos creado por primera vez.

Para ver el archivo en sí, podemos pìnchar en uno de los archivos y se nos abrirá una ventan como esta:

 

robbots.txt search console

Aquí podremos ver las indicaciones del archivo que hemos creado y en el caso de que hubiera incidencias, nos aparecerían marcadas aquí.

Nota: hay gente que pone dibujitos en su archivo robos.txt (tienen tiempo), Search Console lo detecta como error de sintaxis, pero sigue el resto de las directrices que le hemos indicado.

También podemos ver varias versiones de nuestro archivo, en el caso de que lo editemos y nos hayamos confundido, podemos rescatar una versión anterior e incluso copiar el archivo y volverlo a crear. Eso si, ete respaldo solo dura 30 días.

Ojo cuidado con lo que ponemos en nuestro robots.txt, si no lo tenemos claro es preferible tener únicamente el que crea Yoast por defecto, nos ayudará en nuestro posicionamiento SEO y no perjudicaremos el rastreo de otras partes de nuestra web que a lo mejor si son interesantes que sean rastreadas.

 

Probador de robots.txt

Es recomendable que antes de enviar nuestro archivo a Search Console realicemos un test del robots.txt para que comprobemos si de verdad está funcionando.

Para comprobar el robots.txt debemos poner en el tester de robots.txt la Url que queremos comprobar.

Imaginemos que queremos comprobar si nuestro robots.txt bloquea los archivos en Pdf, en nuestro archivo pondremos:

 

Disallow: /*.pdf$

 

Iremos a nuestro probador de rotbots.txt y pondremos el formato como aparece en la imagen y Search Console nos arrojará el resultado de si está permitido o bloqueado.

probador robots.txt
probador robots.txt url
probador robots.txt bloqueado

Una vez comprobado el archivo robots.txt, ahora sí, es el momento de subirlo a Search Console y listo.

Con este post arrojamos algo de luz sobre este pequeño gran desconocido para muchos, el cual es un añadido para nuestro posicionamiento.

¿Qué carpetas o archivos de tu web se te ocurren bloquear con el archivo robots.txt?

Cuéntanos en los comentarios