Todos los sitios web necesitan de los buscadores para construir una presencia sólida en Internet. En este artículo Se analizan las amenazas derivadas de las malas prácticas en la gestión de técnicas SEO para indexación de páginas web, así como las vulnerabilidades y ataques que se pueden derivar de ellas. Tras este análisis, se proponen un conjunto de cinco normas que deben resultar básicas para el desarrollo seguro de la gestión de indexación en servidores web.

La correcta indexación de un sitio web por los motores de búsqueda reviste una importancia capital para contar con una presencia sólida en Internet. Con el fin de mejorar el posicionamiento de un sitio web en la página de resultados de un buscador se utilizan las denominadas técnicas de optimización para motores de búsqueda (Search Engine Optimization, SEO). Entre la gran variedad de técnicas de SEO, se incluyen la correcta configuración de los archivos robots.txt y sitemap para indicar a los buscadores qué indexar y qué no dentro de un sitio web. A diferencia de otras técnicas de SEO más inocuas, la incorrecta configuración de estos archivos puede acarrear consecuencias negativas desde el punto de vista de la seguridad y del rendimiento de un sitio web.

Amenazas derivadas de malas prácticas en la gestión de indexación

Se entiende por amenaza el potencial de que un incidente, deliberado o no, comprometa los objetivos de seguridad de la organización. Entre los objetivos de toda organización suelen figurar el salvaguardar la privacidad de la información sensible, así como asegurar un servicio rápido y de calidad. A continuación se describe cómo estos objetivos pueden verse amenazados.

La primera amenaza reside en la revelación de información sensible sobre la organización: datos de personas físicas y jurídicas, ya sean empleados, clientes o proveedores; datos de sistemas y servicios, como archivos de configuración, así como registros de actividad y código fuente. Esta información sensible puede revelarse de varias maneras indeseadas y a veces insospechadas.

En primer lugar, puede revelarse en metadatos en documentos públicos. La mayoría de software utilizado cotidianamente para generar documentos digitales de todo tipo realiza la adición automática de datos sobre los datos creados (metadatos), los cuales se adjuntan de forma más o menos visible a los propios documentos. Estos metadatos pueden revelar información como nombres de personas, organizaciones, fechas de creación, histórico de alteraciones en el documento, rutas de acceso de archivos, dispositivos utilizados en su creación, coordenadas GPS, y un sinfín de datos adicionales.

En segundo lugar, a través de errores de sistemas. Todo software está sujeto a errores o condiciones excepcionales que pueden provocar el funcionamiento anormal de una aplicación. Cuando estas excepciones no se gestionan adecuadamente, pueden revelar información sobre el sistema. En un contexto web, las excepciones pueden producirse en el servidor web, en el servidor de aplicaciones, en el servidor de datos y en otros muchos puntos de fallo como proxies, cortafuegos de aplicaciones o carritos de la compra, por ejemplo. Los errores mal gestionados pueden revelar código fuente, rutas de acceso de archivos, tipo de servidores, versión de software instalado, nombres de usuario, cadenas de conexión a bases de datos o consultas SQL que revelan a su vez estructuras internas de tablas.

En tercer lugar, por sus rutas de acceso. Aunque los archivos robots.txt y sitemaps están destinados a los robots de búsqueda, son públicos y cualquiera puede descargarlos. Pueden contener información sobre rutas de acceso, las cuales a su vez revelan qué tipo de software existe instalado y qué contenidos sensibles se desean ocultar.

En cuarto lugar, por el contenido de ficheros de configuración. El funcionamiento de algunos servidores se configura mediante archivos de texto, los cuales pueden contener información sensible como nombres de usuario y contraseñas, cadenas de conexión a bases de datos y rutas de acceso de archivos.

Por último, gracias al contenido de ficheros de registro de actividad. Registrar en archivos de texto la actividad de un servidor permite estudiar de qué manera es usado y también reconstruir incidencias. Estos registros o logs pueden contener información sensible de los visitantes, como por ejemplo los datos introducidos en formularios.

La segunda amenaza al cumplimiento de los objetivos de la organización reside en el deterioro del rendimiento. Un objetivo fundamental de todo servicio web es asegurar un buen rendimiento, percibido por los usuarios como la cantidad de tiempo necesaria para cargar la página solicitada. Además de las visitas realizadas por humanos, los sitios web reciben continuamente visitas de robots: buscadores, recolectores de direcciones de correo para spam y buscadores de vulnerabilidades, entre otros. Los primeros, esto es, los motores de búsqueda legítimos, por lo general obedecen el protocolo de exclusión de robots que indica qué porciones del sitio web deben agregarse a los resultados de búsqueda. Archivos robots.txt y sitemap mal configurados pueden originar una sobrecarga de peticiones por parte de estos robots, causando una pérdida de rendimiento.

La tercera amenaza consiste en el posible deterioro de la calidad de servicio. A medida que se incrementa la complejidad de un sitio web y crece su número de páginas, resulta más difícil navegar por ellas y encontrar la información deseada. Los buscadores constituyen un aliado indispensable, ya que para la mayoría de los usuarios suponen la puerta de entrada a sitios web. Un sitio web que carezca de una buena gestión de SEO perderá visibilidad, ya que no aparecerá entre los 10 primeros puestos en las páginas de resultados de los buscadores, y también calidad, porque aunque aparezca listado, no aparecerán en primer lugar las páginas más relevantes dentro del propio sitio. En última instancia, una gestión inadecuada de la seguridad y/o de las técnicas SEO puede causar que el sitio web de la organización sea excluido completamente de las páginas de resultados de los buscadores. Esto puede ocurrir no sólo por una pobre promoción sino también en caso de que las organizaciones que gestionan los buscadores lleguen a la conclusión de que se utilizan técnicas ilegítimas o fraudulentas para mejorar el posicionamiento.

La cuarta amenaza se presenta en la forma de secuestro de resultados de búsqueda. Un elevado porcentaje de visitas que recibe un sitio web proceden de los buscadores. Para asegurar la visibilidad en Internet, es muy importante que la búsqueda de palabras relevantes para el servicio prestado por una organización conduzca al sitio web de esta organización. Existen técnicas conocidas como Black Hat SEO que pueden alterar artificialmente estos resultados.

Vulnerabilidades en la gestión de indexación

Se entiende por vulnerabilidad toda debilidad en un sistema que podría permitir o facilitar la materialización de una amenaza contra un activo. La forma de disminuir el riesgo a que se ven expuestos los activos de la organización pasa por mitigar o eliminar las vulnerabilidades. A continuación se describen cuáles son las vulnerabilidades más importantes en la gestión de una política de SEO asociadas a los archivos robots.txt y site