Huellas digitales de robots de rastreo

Ojo con los “bots buenos” y la visibilidad online. Hoy en día, el mundo digital está lleno de bots; no solo de los que nos dan problemas, sino también de otros que son esenciales para que nuestra información llegue a más gente. Con el auge de plataformas de SEO, marketing y, sobre todo, la Inteligencia Artificial, la cantidad de estos “rastreadores” que recorren la web para recopilar y verificar datos no para de crecer.

¿Por qué son importantes estos bots?

Imagina que estos bots son como pequeños exploradores que buscan y organizan la información de tu web para que los buscadores como Google, o incluso los modelos de lenguaje de la IA (como ChatGPT), puedan encontrarla y mostrarla cuando alguien la busca. Si bloqueamos a estos exploradores por error, es como cerrar la puerta a nuestra propia visibilidad.

El riesgo de un bloqueo incorrecto

El problema surge cuando, sin querer, nuestras herramientas de seguridad, como las CDNs (redes de entrega de contenido) o los sistemas de protección automatizados, confunden a estos bots “buenos” con los “malos” y les impiden el acceso. ¿El resultado? Una disminución notable de nuestra visibilidad en los motores de búsqueda y en las respuestas de los modelos de IA. Esto significa que a la gente le costará más encontrarnos, lo que se traduce en menos visitas y, para las empresas, en menos clientes potenciales.

image

Además, si tienes campañas de marketing de pago en marcha, un bloqueo erróneo puede causar problemas serios en su funcionamiento, haciendo que inviertas dinero sin obtener los resultados esperados.

La solución: identificar a los bots “buenos”

Para evitar estos dolores de cabeza, es fundamental asegurarnos de que los bots que nos benefician puedan hacer su trabajo sin impedimentos. Esto implica tener una lista actualizada de lo que llamamos “bots buenos” y las firmas o “identificaciones” de cada uno de ellos. De esta forma, nuestros sistemas de seguridad automatizados podrán reconocerlos y permitirles el paso, saltándose las limitaciones de velocidad u otros bloqueos que tengamos activados. A raíz de esto surge este proyecto para mantener una base de datos comunitaria y actualizada. Comparto la tabla de huellas digitales de los bots conocidos hasta hoy:

Bot Name User Agent Patterns
Googlebot Image ^.*Googlebot-Image.*$
Googlebot Video ^.*Googlebot-Video.*$
Googlebot ^.*(?!.*Mobile).*Googlebot.*$
^.*Mobile.*Googlebot.*$
Google-InspectionTool ^.*(?!.*Mobile).*Google-InspectionTool.*$
^.*Mobile.*Google-InspectionTool.*$
GoogleOther-Image ^.*GoogleOther-Image.*$
GoogleOther-Video ^.*GoogleOther-Video.*$
GoogleOther ^.*(?!.*Mobile).*GoogleOther.*$
^.*Mobile.*GoogleOther.*$
Google StoreBot ^.*Storebot-Google.*(?!.*Mobile).*$
^.*Storebot-Google.*Mobile.*$
Google AdsBot ^.*AdsBot-Google(?!-Mobile).*$
^.*AdsBot-Google-Mobile.*$
Google AdSense ^.*Mediapartners-Google.*$
Google-Safety ^.*Google-Safety.*$
OAI-SearchBot ^.*OAI-SearchBot.*$
ChatGPT-User ^.*ChatGPT-User.*$
DuckAssistBot ^.*DuckAssistBot.*$
DuckDuckBot ^.*DuckDuckBot.*$
GPTBot ^.*GPTBot.*$
Perplexity-User ^.*Perplexity-User.*$
MistralAI-User ^.*MistralAI-User.*$
PerplexityBot ^.*PerplexityBot.*$
AdIdxBot ^(?!.*Mobile).*adidxbot.*$
^.*Mobile.*adidxbot.*$
Bingbot ^(?!.*(?:Mobile|adidxbot)).*bingbot.*$
^.*Mobile(?!.*adidxbot).*bingbot.*$
Applebot ^.*(?!.*Mobile).*Applebot.*$
^.*Mobile.*Applebot.*$