| Artículos | 01 JUL 1998

La revolución informática

Tags: Histórico
José Mª Fernández Rúa.

La Real Academia Española ha terminado un ambicioso proyecto que recoge la historia del español . Noventa millones de formas de textos escritos podrán ser consultados en Internet a partir del próximo mes de octubre . Ha sido un auténtico paso de gigante el que ha dado esta Institución, ya que ha pasado de contar con doce millones de fichas artesanales a unos veinte millones de registros informatizados . La informatización -aseguró el director de la Academia Fernando Lázaro Carreter- es el camino para ganar la batalla en la unidad del idioma .

En el ?Corpus de Referencia del Español Actual? ( CREA ) han trabajado sesenta y cinco expertos y su diseño responde a la intención de ofrecer a los investigadores de nuestra lengua y a todos aquellos interesados en ella, una muestra representativa y equilibrada del español estándar que se utiliza actualmente en el mundo . Así y con objeto de permitir mayor flexibilidad posible en la obtención de datos, el CREA está estructurado en diferentes módulos lo que hará posible que las consultas vayan referidas a la totalidad de los textos bien únicamente a aquellos que tienen unas determinadas características geográficas, temáticas, temporales, etc . En la búsqueda del equilibrio entre la obtención de la mayor cantidad posible de formas y la posibilidad de enriquecer el corpus mediante codificación y anotación gramatical, el tamaño del CREA al final de su segunda fase -prevista para el mes de diciembre del año 2000- será de 125 millones de formas . El 90 por ciento de esta cifra procederá de textos escritos, y el 10 por ciento restante de textos orales .

Es preciso matizar que el CREA no se compone únicamente de un conjunto de textos de formato electrónico . En este proyecto, el texto electrónico se ha enriquecido con una serie de informaciones codificadas que pueden recuperarse en la fase de explotación . El valor del corpus, según los técnicos que han trabajado en su elaboración, no reside únicamente en la conversión de un soporte impreso o de una grabación a un texto escrito electrónico, sino también las múltiples capas de información adicional que se han ido superponiendo al texto en sí .

En cuanto al concepto codificación, hay tres etapas en la elaboración de un corpus codificado . De una parte, la codificación consiste en la elección de un lenguaje de marcas o de etiquetas que permite representar la información añadida y definir un esquema jerarquizado de marcas, con una sintaxis precisa . A renglón seguido, la codificación es también el proceso de introducción de marcas en el texto, y por último, se entiende por codificación el conjunto de marcas que pertenecen a un nivel distinto al textual y que aparecen asociadas a los textos .

De otro lado, el Corpus Diacrónico del Español ( CORDE ) pretende recoger un conjunto de ciento veinticinco millones de palabras que abarquen desde los inicios del idioma hasta el año 1975, en que se limita con el CREA . Es un corpus escrito, de texto completo, que como el CREA utiliza una marcación mínima según el sistema Standard Generalized Markup Language ( SGML ) . Su objetivo es permitir al usuario una gran versatilidad en lo que se refiere a la explotación . Se ha estructurado teniendo en cuenta diversos parámetros, entre los que destacan los cronológicos, geográficos, de modalidad y género .

En definitiva, estos instrumentos tratan de ser una ayuda inestimable tanto a un divulgador interesado en la existencia de una palabra o que quiera llevar a cabo un estudio gramatical, como a los lexicógrafos que, con sus materiales, elaboren el diccionario histórico .

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información