Cómo y por qué evitar que los bots rastreen su sitio


En su mayor parte, los bots y las arañas son relativamente inofensivos.

Desea que el bot de Google, por ejemplo, rastree e indexe su sitio web.

Sin embargo, los bots y las arañas a veces pueden ser un problema y generar tráfico no deseado.

Este tipo de tráfico no deseado puede resultar en:

  • Ofuscación de la procedencia del tráfico.
  • Informes confusos y difíciles de entender.
  • Atribución errónea en Google analitico.
  • Mayores costos de ancho de banda que usted paga.
  • Otras molestias.

Hay bots buenos y bots malos.

Los buenos bots se ejecutan en segundo plano y rara vez atacan a otro usuario o sitio web.

Los bots maliciosos rompen la seguridad detrás de un sitio web o se utilizan como una red de bots amplia y a gran escala para lanzar ataques DDOS contra una organización grande (algo que una sola máquina no puede eliminar).

Esto es lo que debe saber sobre los bots y cómo evitar que los malos rastreen su sitio.

¿Qué es un robot?

Ver exactamente qué es un bot puede ayudar a identificar por qué necesitamos bloquearlo y evitar que rastree nuestro sitio.

Un bot, abreviatura de «robot», es una aplicación de software diseñada para repetir una tarea específica repetidamente.

Para muchos profesionales de SEO, utilizar bots va de la mano con escalar una campaña de SEO.

«Escalado» significa que automatiza la mayor cantidad de trabajo posible para obtener mejores resultados más rápido.

Conceptos erróneos comunes sobre los bots

Es posible que se haya topado con la idea errónea de que todos los bots son malvados y deben prohibirse inequívocamente en su sitio.

Pero esto no podría estar más lejos de la verdad.

Google es un robot.

Si bloqueas a Google, ¿puedes adivinar qué pasará con tu clasificación en los motores de búsqueda?

Algunos bots pueden ser maliciosos, diseñados para crear contenido falso o hacerse pasar por sitios web legítimos para robar sus datos.

Sin embargo, los bots no siempre son scripts maliciosos ejecutados por malos actores.

Algunas pueden ser excelentes herramientas que facilitan el trabajo de los profesionales de SEO, como la automatización de tareas repetitivas comunes o la extracción de información útil de los motores de búsqueda.

Algunos bots comunes que usan los profesionales de SEO son Semrush y Ahrefs.

Estos bots extraen datos útiles de los motores de búsqueda, ayudan a los profesionales de SEO a automatizar y completar tareas, y pueden ayudar a facilitar su trabajo cuando se trata de tareas de SEO.

¿Por qué necesitarías bloquear a los bots para que no rastreen tu sitio?

Si bien hay muchos bots buenos, también hay bots malos.

Los bots maliciosos pueden ayudar a robar sus datos privados o eliminar un sitio web que funciona de otro modo.

Queremos bloquear cualquier bot malo que podamos encontrar.

No es fácil encontrar todos los bots que pueden rastrear su sitio, pero con un poco de investigación, puede encontrar los maliciosos que ya no desea que visiten su sitio.

Entonces, ¿por qué necesitarías bloquear a los bots para que no rastreen tu sitio web?

Algunas razones comunes por las que puede querer bloquear a los bots para que no rastreen su sitio podrían incluir:

Protección de sus datos valiosos

Tal vez descubrió que un complemento está atrayendo a una serie de bots maliciosos que quieren robar sus valiosos datos de consumo.

O descubrió que un bot se aprovechó de una vulnerabilidad de seguridad para agregar enlaces incorrectos en todo su sitio.

O, alguien sigue tratando de enviar spam a tu formulario de contacto con un bot.

Aquí es donde debe tomar ciertas medidas para proteger sus datos valiosos para que no se vean comprometidos por un bot.

Excedentes de ancho de banda

Si recibe una afluencia de tráfico de bots, es probable que su ancho de banda también se dispare, lo que generará excedentes y cargos imprevistos que preferiría no tener.

Absolutamente desea bloquear a los bots ofensivos para que no rastreen su sitio en estos casos.

No desea una situación en la que pague miles de dólares por un ancho de banda que no merece que le cobren.

¿Qué es el ancho de banda?

El ancho de banda es la transferencia de datos desde su servidor al lado del cliente (navegador web).

Cada vez que se envían datos a través de un intento de conexión, utiliza ancho de banda.

Cuando los bots acceden a su sitio y usted desperdicia ancho de banda, podría incurrir en cargos por sobrar el ancho de banda mensual asignado.

Debería haber recibido al menos alguna información detallada de su anfitrión cuando se inscribió en su paquete de hospedaje.

Limitar el mal comportamiento

Si un bot malicioso de alguna manera comenzó a apuntar a su sitio, sería apropiado tomar medidas para controlarlo.

Por ejemplo, querrá asegurarse de que este bot no pueda consentir a sus formularios de contacto. Desea asegurarse de que el bot no pueda consentir a su sitio.

Haga esto con anterioridad a que el bot pueda comprometer sus archivos más críticos.

Al asegurarse de que su sitio esté correctamente bloqueado y seguro, es posible bloquear estos bots para que no causen demasiado daño.

Cómo bloquear los bots de su sitio de manera efectiva

Puede usar dos métodos para bloquear los bots de su sitio de manera efectiva.

La primera es a través de robots.txt.

Este es un archivo que se encuentra en la raíz de su servidor web. Por lo general, es posible que no tenga uno de forma predeterminada y tendrá que crear uno.

Estos son algunos códigos robots.txt muy útiles que puede usar para bloquear la mayoría de las arañas y bots de su sitio:

No permitir Googlebot de su servidor

Si, por alguna razón, desea evitar que Googlebot rastree su servidor, el siguiente código es el código que usaría:

Agente de usuario: robot de Google
No permitir: /

Solo desea usar este código para evitar que su sitio sea indexado.

¡No uses esto por capricho!

Tenga una razón específica para asegurarse de que no desea que los bots rastreen su sitio.

Por ejemplo, un problema común es querer mantener su sitio provisional fuera del índice.

No desea que Google rastree el sitio provisional y su sitio real porque está duplicando su contenido y creando problemas de contenido duplicado como resultado.

No permitir todos los bots de su servidor

Si desea evitar que todos los bots rastreen su sitio, el siguiente código es el que querrá usar:

Agente de usuario: *
No permitir: /

Este es el código para no permitir todos los bots. ¿Recuerdas nuestro ejemplo de sitio de prueba de arriba?

Tal vez desee excluir el sitio de prueba de todos los bots con anterioridad a implementar completamente su sitio en todos ellos.

O tal vez desee mantener su sitio privado por un tiempo con anterioridad a lanzarlo al mundo.

De cualquier manera, esto mantendrá su sitio oculto de miradas indiscretas.

Evitar que los bots rastreen una carpeta específica

Si por alguna razón desea evitar que los bots rastreen una carpeta específica que desea designar, también puede hacerlo.

El siguiente es el código que usarías:

Agente de usuario: *
No permitir: /nombre-carpeta/

Hay muchas razones por las que alguien querría excluir bots de una carpeta. Tal vez quiera asegurarse de que cierto contenido de su sitio no esté indexado.

O tal vez esa carpeta en particular cause ciertos tipos de problemas de contenido duplicado y desee excluirla del rastreo por completo.

De cualquier manera, esto te ayudará a hacerlo.

Errores comunes con Robots.txt

Hay varios errores que los profesionales de SEO cometen con robots.txt. Los principales errores comunes incluyen:

  • Usar ambos no permitir en robots.txt y noindex.
  • Usando la barra diagonal / (todas las carpetas desde la raíz), cuando realmente te refieres a una URL específica.
  • Sin incluir la ruta correcta.
  • No probando su archivo robots.txt.
  • No saber el nombre correcto del agente de usuario que desea bloquear.

Usando ambos Disallow en Robots.txt y Noindex en la página

John Mueller, de Google, ha declarado que no se debe usar tanto rechazar en robots.txt como noindex en la página misma.

Si hace ambas cosas, Google no puede rastrear la página para ver el noindex, por lo que podría indexar la página de todos modos.

Es por eso que solo debes usar uno u otro, y no ambos.

Usar la barra diagonal cuando realmente te refieres a una URL específica

La barra diagonal después de Disallow significa «desde esta carpeta raíz hacia abajo, por completo y por toda la eternidad».

Cada página de su sitio se bloqueará para siempre hasta que la cambie.

Uno de los problemas más comunes que encuentro en las auditorías de sitios web es que alguien agregó accidentalmente una barra diagonal a «No permitir:» y bloqueó a Google para que no rastreara todo su sitio.

No incluir la ruta correcta

Entendemos. A veces, codificar robots.txt puede ser un trabajo incisivo.

Inicialmente, no podía recordar la ruta correcta exacta, por lo que revisó el archivo y lo agitó.

El problema es que todas estas rutas similares dan como resultado 404 porque tienen un carácter de diferencia.

Por eso es importante verificar siempre dos veces las rutas que usa en URL específicas.

No desea correr el riesgo de agregar una URL a robots.txt que no funcionará en robots.txt.

No saber el nombre correcto del agente de usuario

Si desea bloquear un agente de usuario en particular pero no sabe el nombre de ese agente de usuario, eso es un problema.

En lugar de usar el nombre que cree recordar, investigue un poco y descubra el nombre exacto del agente de usuario que necesita.

Si está tratando de bloquear bots específicos, ese nombre se vuelve extremadamente importante en sus esfuerzos.

¿Por qué otra razón bloquearías bots y arañas?

Hay otras razones por las que los profesionales de SEO querrían impedir que los bots rastreen su sitio.

Tal vez estén metidos en los PBN de sombrero gris (o sombrero negro) y quieran ocultar su red privada de blogs de las miradas indiscretas (especialmente de sus competidores).

Pueden hacer esto utilizando robots.txt para bloquear bots comunes que los profesionales de SEO usan para evaluar su competencia.

Por ejemplo Semrush y Ahrefs.

Si querías bloquear Ahrefs, este es el código para hacerlo:

Agente de usuario: AhrefsBot
No permitir: /

Esto impedirá que AhrefsBot rastree todo su sitio.

Si desea bloquear Semrush, este es el código para hacerlo.

También hay otras instrucciones. aquí.

Hay muchas líneas de código para agregar, así que tenga cuidado al agregar estas:

Para evitar que SemrushBot rastree su sitio por diferentes problemas técnicos y de SEO:

Agente de usuario: SiteAuditBot
No permitir: /

Para evitar que SemrushBot rastree su sitio para la herramienta Auditoría de vínculos de retroceso:

Agente de usuario: SemrushBot-BA
No permitir: /

Para evitar que SemrushBot rastree su sitio para la herramienta On Page SEO Checker y herramientas similares:

Agente de usuario: SemrushBot-SI
No permitir: /

Para impedir que SemrushBot verifique las URL en su sitio en busca de la herramienta SWA:

Agente de usuario: SemrushBot-SWA
No permitir: /

Para impedir que SemrushBot rastree su sitio en busca de las herramientas Content Analyzer y Post Tracking:

Agente de usuario: SemrushBot-CT
No permitir: /

Para impedir que SemrushBot rastree su sitio para Brand Monitoring:

Agente de usuario: SemrushBot-BM
No permitir: /

Para impedir que SplitSignalBot rastree su sitio para la herramienta SplitSignal:

Agente de usuario: SplitSignalBot
No permitir: /

Para impedir que SemrushBot-COUB rastree su sitio para la herramienta Creador de esquemas de contenido:

Agente de usuario: SemrushBot-COUB
No permitir: /

Uso de su archivo HTACCESS para bloquear bots

Si está en un servidor web APACHE, puede utilizar el archivo htaccess de su sitio para bloquear bots específicos.

Por ejemplo, así es como usaría el código en htaccess para bloquear ahrefsbot.

Tenga en cuenta: tenga cuidado con este código.

Si no sabe lo que está haciendo, podría desconectar su servidor.

Solo proporcionamos este código aquí con fines de ejemplo.

Asegúrese de investigar y practicar por su cuenta con anterioridad a agregarlo a un servidor de producción.

Orden Permitir, Denegar
Denegar desde 51.222.152.133
Denegar desde 54.36.148.1
Denegar desde 195.154.122
Permitir de todos

Para que esto funcione correctamente, asegúrese de bloquear todos los rangos de IP enumerados en Este artículo en el blog de Ahrefs.

Si desea una introducción completa a .htaccess, no busque más. este tutorial en Apache.org.

Si necesita ayuda para usar su archivo htaccess para bloquear tipos específicos de bots, puede seguir las tutoría aquí.

Bloquear bots y arañas puede requerir algo de trabajo

Pero vale la pena al final.

Al asegurarse de bloquear los robots y las arañas para que no rastreen su sitio, no caerá en la misma trampa que los demás.

Puede estar tranquilo sabiendo que su sitio es inmune a ciertos procesos automatizados.

Cuando puede controlar estos bots en particular, hace que las cosas sean mucho mejores para usted, el profesional de SEO.

Si es necesario, asegúrese siempre de bloquear los bots y arañas requeridos para que no rastreen su sitio.

Esto dará como resultado una mayor seguridad, una mejor reputación en línea en general y un sitio mucho mejor que estará allí en los años venideros.

Más recursos:


Imagen destacada: Roman Samborskyi/Shutterstock





Consultar el artículo en la publicación original

Cómo y por qué evitar que los bots rastreen su sitio