| Artículos | 01 ABR 2009

Cómo controlar la información oculta de los documentos

Tags: Histórico
Explicamos, mediante un caso real, cómo identificar y controlar la información oculta en los metadatos
Chema Alonso.
En este reportaje ponemos de manifiesto, mediante un caso real de gran calado, los problemas que nos puede ocasionar el hecho de no prestar atención a la información adicional inherente a los documentos, conocida como metadatos.

Es inevitable hablar de los riesgos de seguridad y privacidad asociados a los metadatos y la información oculta almacenada en un documento ofimático sin contar la famosa historia que afectó al gabinete de Tony Blair.
Era el año 2003 y se cernía el comienzo de la guerra de Irak cuando Tony Blair presentó un informe en la cámara alta del gobierno británico que había sido recibido del servicio de inteligencia de los Estados Unidos. Dicho informe se presentó como una prueba irrefutable de que en Irak existían armas de destrucción masiva. El presidente fue preguntado repetidas veces si ese documento había sido manipulado, modificado o tratado de alguna forma por el gobierno británico y la respuesta siempre fue la misma: No.
Sin embargo, el documento fue publicado en el sitio web del gobierno sin tener en cuenta los posibles metadatos y la información oculta que pudiera contener. El documento en cuestión había sido escrito en formato.doc, el formato nativo de Mirosoft Word, y resultó que, al hacer un análisis de los metadatos, apareció una lista de ediciones realizadas por ciertos usuarios que demostraban que el documento sí había sido manipulado por el personal del gobierno británico.
El documento, nada más saltar el escándalo, fue retirado de la web dónde había sido publicado pero, como sucede con toda la información que se pone disponible en Internet, mucha gente ya lo había descargado y existían miles de copias del documento original, todas ellas con la prueba fehaciente de la edición del documento por parte del gobierno de Tony Blair.
.
Analizando el “informe Blair”
En caso de que el lector sienta curiosidad, el famoso informe puede ser descargado hoy en día desde la URL: www.computerbytesman.com/privacy/blair.htm y podemos analizarlo utilizando múltiples herramientas. La forma más sencilla es utilizar el servicio gratuito de la FOCA Online. FOCA son las siglas de Fingerprinting Organizations with Collected Archives y permite extraer toda la información oculta (independientemente del formato del documento que sea), metadatos o datos perdidos que pueda contener.
En la Figura 1 se puede ver la lista completa de metadatos e información que el servicio FOCA Online extrae del documento Blair.doc. En ella se puede apreciar una lista de ediciones sucesivas del documento. En primer lugar se puede apreciar cómo este documento es editado hasta tres veces por un usuario identificado como cic22, que trabaja en la ruta del sistema de ficheros C:\DOCUME~1\phamill\LOCALS~1\Temp\. Esta ruta hace referencia al perfil del usuario phamill. Posteriormente hay tres usuarios más que también editan varias veces el documento. Dicho usuarios están identificados como JPratt, ablackshaw y MKhan.
Con estos datos fue sencillo para los medios de comunicación asociar los cuatro usuarios que aparecían en el documento con cuatro personas que trabajaban en el gobierno inglés: Paul Hamill - Funcionario de Foreign Office, John Pratt - Funcionario de Downing Street, Alison Blackshaw - Asistente personal de la secretaria de prensa del Primer Ministro y Murtaza Khan - Funcionario Junior de prensa para el Primer Ministro.

Los metadatos y la información oculta
Como queda demostrado con el ejemplo del informe Blair, hay cierta información en un documento ofimático que está almacenada, pero que no se puede ver a simple vista. Dicha información, en contra de la creencia popular, no existe sólo en los formatos de fichero del paquete Microsoft Office. Los formatos de fichero de OpenOffice fueron objeto de un amplio análisis en el artículo publicado en el número 257 de PC World, correspondiente al mes octubre de 2008, del que se pudo constatar la información que podía encontrarse en este formato de fichero. Del mismo modo, de esta información oculta tampoco se libran formatos de fichero basados en Lotus, PDF o WordPerfect, entre otros.
En la Figura 2 se puede ver cómo hay información de impresoras de red en un documento WordPerfect publicado en internet y que, con una herramienta como Bintext, diseñada para buscar cadenas de texto, de puede destapar de forma sencilla.
En definitiva, en un documento ofimático pueden encontrarse nombres de servidores de la red o direcciones IP de los mismos (porque compartan una carpeta de red en la que trabajen los usuarios o una impresora que sea usada por los mismos revelando información interna de la organización).
También, como se ha podido ver en el ejemplo del informe de Tony Blair, pueden aparecer nombres de usuarios, ya sea como creadores y editores del mismo o como nombres de carpetas en los perfiles de usuario.
Uniendo los dos tipos de datos anteriores, es decir, rutas a recursos compartidos en servidores y datos de usuarios que trabajan en ellos, un atacante podría establecer una lista de permisos asociado al recurso, es decir, se podría inferir, si no toda, parte de la lista de control de acceso de los recursos (ACL, o Access Control List).

Los documentos PDF y las impresoras virtuales
Otra información que queda al descubierto en la mayoría de los documentos ofimáticos son las versiones de software que están siendo utilizadas por una empresa. Esto podría ser bastante comprometedor para una organización si se hubieran publicado documentos creados con versiones de productos de los que la compañía no tiene licencia.
Esto suele ser bastante común en los documentos PDF. El formato PDF, además de ser un formato ampliamente aceptado por los usuarios como un documento de intercambio de información, tiene la característica de poder ser creado fácilmente desde cualquier programa utilizando impresoras virtuales.
Las impresoras virtuales no son nada más que un software que recibe la salida para impresión de cualquier programa y lo convierte en un fichero PDF. Así, un usuario que tenga instalado en su sistema una impresora virtual PDF puede generar, desde cualquier aplicación, un fichero PDF.
Sin embargo, la mayoría de las impresoras virtuales que generan ficheros PDF guardan información de la aplicación que ha mandado imprimir el documento. Así, aunque el documento sea PDF, puede ser comprobado con qué utilidad se hizo.
En la Figura 3 se puede observar un fichero PDF creado por el usuario Ramón, desde Quark Xpress 7.0.1 a través de Adobe Acrobat Distiller 7.0.5 para Macintosh. Es decir, con un simple documento en formato PDF se ha podido averiguar que el usuario Ramón usa un sistema operativo Macintosh, que trabaja con Quark Xpress 7.0.1 y que genera los documentos PDF a través de Adobe Acrobat Distiller, información que podemos utilizar después para ejecutar diferentes acciones.

El número importa
Como se puede ver, un simple documento puede generar una gran cantidad de información que, sea en el formato que sea, puede ser incómoda, peligrosa o delicada para la organización, pero, ¿cuántos documentos puede llegar a publicar una organización hoy en día? Basta con hacer algunas búsquedas a través de Internet para que sea preocupante.
De hecho, en la Figura 4 se puede ver cómo, por ejemplo, en el dominio fbi.gov se están publicando a día de h

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información