| Artículos | 01 OCT 2008

Metadatos e Información oculta en documentos de OpenOffice

Tags: Histórico
Desvelamos los datos ocultos de la suite ofimática gratuita
Enrique Rando y Chema Alonso.
Internet está cambiando. Tras la revolución que supuso la Web 2.0 y las redes sociales, los expertos investigan ya nuevos paradigmas. Uno de ellos es la Web Semántica: una nueva red en la que, idealmente, las aplicaciones podrán interactuar sin intervención humana, porque conocerán el significado de los datos y las relaciones existentes entre ellos. Para ello es necesario que la información esté autodocumentada.

La Web Semántica se basa en el uso y normalización de metadatos. Los metadatos son datos relativos a documentos y recursos publicados, tales como el autor, el tema o la fecha de creación. Esta información se incorpora a los propios documentos, facilitando nuevos criterios para las búsquedas y el establecimiento de vínculos entre recursos.
Es de esperar que, en un futuro próximo, las organizaciones incluyan más y más metadatos en sus documentos. Los metadatos ya están entre nosotros y su intención es quedarse. Para lo bueno y para lo malo. Sin embargo, el uso de metadatos se remonta tiempo atrás y muchas aplicaciones incluyen metadatos en los ficheros que generan para ayudar a comprender mejor la información que contienen y facilitar su posterior procesamiento automático.

OpenOffice
La conocida suite ofimática OpenOffice no podía quedar al margen de esta tendencia. Ya en su primera versión incorporaba metadatos descriptivos de los documentos y, para la próxima versión 3, disponible ya en beta, se había anunciado un tratamiento mejorado de estos.
Pero cada funcionalidad tiene una contrapartida. Hoy en día muchas organizaciones no gestionan apropiadamente los metadatos de los documentos que publican, y eso puede perjudicar su imagen pública y poner en riesgo la seguridad de sus sistemas de información. ¿Cómo?

Formato de archivo ODF (contenido_odf.jpg)
OpenOffice 2 utiliza de forma nativa el formato ODF (OpenDocument Format), un formato estándar y abierto definido por OASIS y aprobado por ISO. En ODF, los documentos se almacenan como un archivo comprimido ZIP que contiene un conjunto de ficheros en formato XML con el contenido del documento.
Así, si utilizamos un programa de compresión para abrir un documento ODT (fichero de texto creado con Open–Office Writer) nos encontramos, entre otros, con los siguientes archivos:
meta.xml: Contiene metadatos relativos al documento y, como se indica en la ayuda del producto, este fichero no se cifra ni siquiera cuando el documento esté protegido mediante contraseña.
settings.xml: Incluye información relativa a la configuración y a los ajustes del documento.
content.xml: En este fichero se almacena el contenido principal, es decir, el texto del documento.
Aunque la versión de OpenOffice 1 utiliza extensiones de archivo distintas a las de OpenOffice 2, los documentos son guardados de forma similar. No hay que olvidar que ODF se construyó como una evolución de los formatos de fichero utilizados en OpenOffice 1.

Datos Personales
Los primeros metadatos que genera un usuario utilizando OpenOffice se crean durante la instalación del software y la primera vez que se ejecuta. La suite solicita al usuario una serie de datos que, por defecto, van a acompañar a los documentos creados con esa versión del software.
OpenOffice va a almacenar esta información de forma que pueda acompañar, como una firma, a los documentos generados desde ese software. No obstante, todos estos datos, y más información, pueden ser modificados y ampliados posteriormente en OpenOffice, utilizando el cuadro de Opciones del menú Herramientas como se puede ver en la Figura 4.
Parte de esta información se va a almacenar en los documentos generados con OpenOffice. De esta forma, si creamos un nuevo documento de texto y comprobamos el contenido del fichero meta.xml que se ha generado, encontraremos la siguiente información:

<?xml version=”1.0” encoding=”UTF-8” ?>
-<office:document-meta xmlns:office=”urn:oasis:names:tc:opendocument:xmlns:office:1.0” xmlns:xlink=”http://www.w3.org/1999/xlink” xmlns: dc=”http://purl.org/dc/elements/1.1/” xmlns:meta=”urn:oasis:names:tc:opendocument:xmlns:meta:1.0” xmlns:ooo=”http://openoffice.org/2004/office” office:version=”1.0”>
- <office:meta>
<meta:generator>OpenOffice.org/2.3$Win32 OpenOffice.org_project/680m5$Build-9221</meta:generator>
<meta:initial-creator>MiNombre MiApellido</meta:initial-creator>
<meta:creation-date>2008-08-11T11:33:23</meta:creation-date>
<meta:editing-cycles>0</meta:editing-cycles>
<meta:editing-duration>PT0S</meta:editing-duration>
<meta:user-defined meta:name=”Info 1” />
<meta:user-defined meta:name=”Info 2” />
<meta:user-defined meta:name=”Info 3” />
<meta:user-defined meta:name=”Info 4” />
<meta:document-statistic meta:table-count=”0” meta:image-count=”0” meta:object-count=”0” meta:page-count=”1” meta:paragraph-count=”0” meta:word-count=”0” meta:character-count=”0” />
</office:meta>
</office:document-meta>

De los datos personales sólo se aprecia el nombre y los apellidos. Quizá estemos interesados en que esa información aparezca ahí o quizá no. Un usuario o una empresa debería decidirse al respecto antes de publicar este documento en Internet, enviarlo por correo electrónico o a hacerlo público por cualquier otro método. Además, también se encuentra información relativa a la versión de OpenOffice y al sistema operativo que se está utilizando. ¿Realmente interesa que esa información sea conocida cuando se publica un documento?

Impresoras
Entre la información que puede ser potencialmente peligrosa, pues revela datos sobre la infraestructura de una empresa, está la relativa a las impresoras. Así, cuando se imprime un documento con OpenOffice, y posteriormente es guardado, dentro del fichero settings.xml queda la información de la impresora que ha sido utilizada.

<config:config-item config:name=”ClipAsCharacterAnchoredWriterFlyFrames” config:type=”boolean”> false</config:config-item>
<config:config-item config:name=”CurrentDatabaseDataSource” config:type=”string” />
<config:config-item config:name=”DoNotCaptureDrawObjsOnPage” config:type=”boolean”>false</config:config-item>
<config:config-item config:name=”TableRowKeep” config:type=”boolean”>false</config:config-item>
<config:config-item config:name=”PrinterName” config:type=”string”>EPSON Stylus DX4000 Series</config:config-item>
<config:config-item config:name=”PrintFaxName” config:type=”string” />
<config:config-item config:name=”ConsiderTextWrapOnObjPos” config:type=”boolean”>false</config:config-item>
<config:config-item config:name=”UseOldPrinterMetrics” config:type=”boolean”>false</config:config-item>

Esta información puede ser importante, pues puede delatar una acción de un usuario que no debería haberse producido o apuntar directamente a un usuario o máquina concreta de forma unívoca. Esta información aún p

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información