| Artículos | 01 JUN 2001

Portales de voz: la aplicación comercial de las tecnologías del habla

Tags: Histórico
Toñi Herrrero.
¿Llegará un día en que será difícil precisar si se está conversando con un ordenador o con otra persona? Las tecnologías de la lengua se orientan a la programación de ordenadores de manera que se comporten como si entendiesen la lengua humana. Así, los sistemas de información y servicios basados en Internet han encontrado, gracias a estas tecnologías, otro medio de comunicación: la voz. Y han surgido portales de voz que permiten obtener información desde el teléfono o PDA.

Las tecnologías de la lengua se pueden definir, según Marsal Gavaldà, doctor en tecnologías de la lengua por la Carnegie Mellon University, como el conjunto de conocimientos que permiten programar ordenadores de manera que se comporten como si entendiesen la lengua humana. Esta definición se cumple cuando no se puede precisar si se está conversando con un ordenador o con otra persona. Los sistemas de información y servicios basados en Internet han encontrado, gracias a estas tecnologías, otro medio de comunicación: la voz. Surgen así portales de voz como Ydilo, que permite obtener información desde cualquier lugar a través del teléfono o PDA.
La creciente movilidad de los profesionales está conduciendo hacia una demanda de Internet en cualquier momento y lugar. Según afirma Maria Roura Poch en su artículo Tecnologías de la lengua, la posibilidad de acceso a grandes bases de datos en Internet en el momento actual permite que el procesamiento del lenguaje esté orientado al tratamiento de esa información y a desarrollar aplicaciones y recursos de ingeniería lingüística que permitan a los usuarios no expertos acceder a ella de manera adecuada. “Por este motivo, el interés en el área del procesamiento del lenguaje se centra en el desarrollo de sistemas de extracción y recuperación de la información”. Los portales de voz son formas de acceder a información y a aplicaciones en muchos casos preexistentes. Un informe de Kelsey Group prevé que en el año 2005 habrá 18 millones de usuarios de algún tipo de portal de voz. Además, la utilización del teléfono como instrumento para el comercio electrónico es una posibilidad que muchas empresas están considerando. Esta consultora asegura que las transacciones y la publicidad relacionadas con los portales de voz moverán unos 5.000 millones de dólares en 2005. Y “la posibilidad de interactuar con los sistemas informáticos mediante el habla sin tener que recurrir al teclado constituye un objetivo que permitirá una interacción más natural y flexible”, comenta Roura.
Existen cuatro procesos de las tecnologías de la lengua que posibilitan esta aplicación: reconocimiento de voz, procesamiento del lenguaje natural, traducción automática texto a texto y síntesis de voz. El reconocimiento continuo del habla es una tecnología diseñada para facilitar la interacción entre el ser humano y la máquina. Permite conversar, ya que puede cambiar de contexto dinámicamente y, según el caso, reconocer distintos vocabularios muy extensos del orden de miles de entradas. Para ello se utilizan las tecnologías de síntesis de voz que contienen otras de conversión de texto a voz (TTS, es decir, text to speech) que suelen usar aplicaciones para invidentes. La conversión de texto a voz faculta la síntesis de la voz a partir de textos con una calidad muy alta, tanto que se estima que en dos o tres años no se podrá distinguir una voz sintetizada de una pregrabada. También se ha creado un estándar para los servicios basados en la voz, Voice XML (Voice Xtensible Markup Language). Este lenguaje está preparado para manejar habla sintetizada para la conversión TTS, grabar entradas de datos sonoros y alcanzar la convergencia con las páginas HTML tradicionales.

Información hablada
Los grandes avances en tecnologías del habla comienzan a tener ya sus usos comerciales. En Estados Unidos disponen desde hace años de este tipo de portales, aunque el auge ha sido reciente. En España, la empresa People Communications lanzó recientemente su portal de voz Ydilo. Terra Lycos ha hecho lo mismo, y otros portales de Internet como Canal21, de Euskaltel, incorporan aplicaciones de reconocimiento de voz. A través de estos portales -a los que se accede desde un número de teléfono- se puede acceder a una serie de servicios que comprenden información meteorológica, noticias, hoteles, loterías y acceso al correo electrónico. Ydilo utiliza tecnologías de SpeechWorks y Nuance y se sirve de la síntesis de voz y los mensajes pregrabados. Como reconoce Arturo Lizón, director de investigación y desarrollo y socio fundador de People Communications, “la síntesis de voz todavía no suena natural, es un poco mecánica. La voz pregrabada da una mayor calidad. La mayoría de los contenidos los grabamos. Utilizamos la síntesis para informaciones cuyo período de vida es muy corto y que requieren una cierta inmediatez”.
Los portales de voz que utilizan reconocimiento del habla comprenden las peticiones habladas de los usuarios y hacen corresponder esos requerimientos de información con un contenido específico. El contenido es leído al usuario utilizando tecnología TTS o mediante voces pregrabadas. Las tecnologías de la lengua tienen también un componente de seguridad, ya que “utilizan patrones de voz para validar la identidad del usuario y poder autenticarlo”, comenta Daniel Aubert, director ejecutivo de Nextret.

Humanización
Los portales de voz, además de servir como vía de acceso a Internet cuando no sea posible hacerlo de un modo gráfico, se presentan como un complemento. Según Santiago Contreras, director general de Dialogic, “para mejorar la entrega de información hay que combinar la información vocal con técnicas WAP o UMTS, porque la petición se puede hacer con la voz, gracias a las técnicas de lenguaje natural, pero la información se puede recibir en formato gráfico siempre que haya un terminal que lo soporte”.
Las tecnologías de la lengua van a proporcionar una mayor personalización, un mayor grado de humanización en las voces y el soporte en diferentes idiomas. Según Alex Waibel, director de Interactive Systems Laboratories en la School of Computer Science de Carnegie Mellone University de Pittsburgh, “el acceso a las bases de datos a través del habla requerirá el conocimiento de muchas lenguas para poder atender a clientes en diferentes idiomas. Con el auge de los servicios de información automatizada surge una necesidad de procesamiento del lenguaje multilingüístico automatizado”.
Elka Popova, analista de Frost & Sullivan, considera que “el futuro potencial de la industria de los portales de voz depende de cómo evolucionen los modelos de negocio y qué categorías de la industria participante y esquemas de generación de ingresos sean los más exitosos”. La consultora ha detectado áreas de aplicaciones que pueden ser las más lucrativas: operadores de telefonía móvil, que lo ofrecerán como servicio adicional; y las empresas, como herramienta de comunicación para sus empleados. Explica el director ejecutivo de Nextret que se ha desarrollado un prototipo de portal de voz para uso interno en una entidad financiera española. Según Aubert, las entidades financieras son usuarios importan

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información