| Artículos | 01 MAY 1995

Tecnología de Voz en Windows (I)

Tags: Histórico
La tasa de aciertos, en caso óptimo, se sitúa entre el 95 y el 98%
David Rodríguez.

Que la tecnología avanza a pasos agigantados es por todos bien sabido. Sin embargo, en el área del reconocimiento y síntesis de la voz humana por un PC, no podemos decir que el tema esté solucionado ni mucho menos. A pesar de todo, Microsoft ha lanzado un kit para introducirse en ese apasionante mundo y dotar a nuestras aplicaciones de un valor añadido, ciertamente interesante. El objetivo es obtener un sistema en el que el ordenador escuche la voz, la comprenda y reproduzca una respuesta de forma clara y personal. Bajo esta hipótesis ideal, vamos a examinar la solución que se nos ofrece.

El presente estudio se divide en dos artículos: esta primera parte dedicada a los aspectos teóricos y la segunda dedicada a la programación (se publicará el próximo mes).

Reconocimiento de voz

El reconocimiento de la voz se basa en el reconocimiento de las palabras que pronunciamos. La calidad y seguridad que vamos a conseguir es proporcional a la cantidad de tiempo de proceso y memoria del ordenador que vayan a ser invertidos con esta finalidad.

La tecnología empleada en el reconocimiento se categoriza en cuatro áreas fundamentales. Primera, separación de palabras, donde se establece un grado que permita tal separación. Segunda, dependencia del hablante, donde se establece el grado de dependencia del reconocimiento respecto a la persona que habla. Tercera, técnicas de comparación, con las cuales la palabra se identifica dentro de un diccionario establecido. Y, cuarta, tamaño del vocabulario, o número de palabras que pueden ser reconocidas. A continuación, se comentan estas cuatro áreas de forma individual.

Empezando por la separación de palabras, diremos que la maquinaria de reconocimiento debe adaptarse a uno de los siguientes modos: a) Habla discreta, donde hacemos una pausa detrás de cada palabra; este modo requiere poco procesamiento pero es bastante antinatural y poco amigable. b) Punteo, en el cual el habla es continua, pero sólo se reconoce una palabra por frase; así, si la palabra en el diccionario es "ordenador", da igual decir "enciende el ordenador" que "el ordenador es muy bonito", ambos casos retornarían la misma palabra; su uso está restringido al discernimiento de comandos concretos donde no importa el orden o adornos de la frase. Finalmente, c) Habla continua, donde no existen pausas artificiales entre palabras y el ordenador es el encargado de encontrarlas; este método requiere un gran esfuerzo pero resulta muy natural para el usuario.

En lo referente al grado de dependencia del hablante, también es necesario hacer tres distinciones. a) Dependiente del hablante, donde la maquinaria es entrenada para reconocer la voz del usuario; este entrenamiento suele resultar bastante tedioso, necesita de especialistas y tiene un resultado concreto. b) Adaptativo al hablante, diferenciado del anterior en que es el sistema el que aprende sobre la marcha y hace que el entrenamiento sea muy sencillo. Y c) independiente del hablante, donde se utilizan técnicas avanzadas de forma que la máquina reconozca a cualquier persona que no tenga un acento especial. Este último método no requiere entrenamiento previo, pero sí una serie de ajustes generales.

Las técnicas de comparación de las palabras pueden ser de dos tipos: a) orientada a la palabra, de forma que la entrada digital se compara con el sonido almacenado y b) orientada a subpalabras, generalmente fonemas. La primera técnica tiene la característica de que cada palabra ocupa mucho espacio, pero el tiempo de proceso se reduce, mientras que con la segunda, los fonemas ocupan muy poco espacio, pero el tiempo de proceso aumenta considerablemente. Adicionalmente, con la técnica de los fonemas, es posible identificar la palabra correcta aun cuando alguno de los fonemas no se haya reconocido claramente (con ayuda del diccionario). Esto mismo hacemos nosotros mentalmente en algunas ocasiones: no oímos claramente la totalidad de una palabra pero intuimos cuál puede ser, con la salvedad de que el cerebro humano es más sofisticado.

Y para terminar con esta introducción, decir que en lo referente al tamaño del diccionario, pequeños diccionarios de unas 50 palabras se pueden utilizar para controlar sistemas que tan sólo deban reconocer una lista de comandos. Por contra, en casos donde sea necesario "dictar" un texto, se necesitan diccionarios de varios miles de palabras (del orden de 50.000 para un uso normal) lo que supone incrementar tanto el tiempo de proceso como el almacenamiento en disco.

Es preciso realizar algunas consideraciones a esta primera aproximación al reconocimiento de voz. En primer lugar, hemos de saber que el ordenador es incapaz de distinguir si le estamos hablando a él o a otra persona. Tampoco puede reconocer más de una persona hablando al mismo tiempo. Estas dos consideraciones deben tener un peso específico a la hora de colocar el micrófono.

Cuando hablamos, hemos de considerar los siguientes factores. Que el sistema es siempre limitado, con lo que no se puede hablar con él como si de otra persona se tratase. Que el sistema no puede adivinar el significado de palabras que no hayan sido incluidas en el diccionario. Que en aquellas máquinas que no trabajen con fonemas, pequeñas variaciones en la pronunciación de las palabras pueden impedir el reconocimiento de las mismas. Y que dado el coste a nivel de información que tiene un sistema, debemos pensar que sólo algunos lenguajes estarán disponibles comercialmente.

Respecto a la tasa de aciertos, en el caso más óptimo con un hablante experto, esta suele éstar entre el 95% y el 98%, lo que puede considerarse toda una hazaña. Algunos factores que reducen estos porcentajes podrían ser acentos o dialectos del hablante, tipo y situación del micrófono -recomendándose aquellos que se colocan en la cabeza a modo de auricular y que poseen una direccionalidad y rechazo al ruido elevados, o sonidos extraños que interfieren el canal de comunicación.

Uso en aplicaciones

Una aplicación puede utilizar la tecnología de reconocimiento de voz de muy distintas maneras. La más simple es el responder a sencillas preguntas que nos hace la máquina. Así, todos los cuadros de diálogos de Windows donde sólo se necesita decir algo del tipo de "Si", "No", "Cancelar" podrían ser obviados con una simple respuesta.

También puede usarse una frase más larga a modo de comando, como puede ser "Imprime la página actual" o "Cambia el color a rojo", lo que da una gran versatilidad. Una aplicación inmediata podría ser la sustitución de las teclas de acción rápida por comandos verbales. Siempre será más sencillo decir "deshacer" que pulsar Ctrl-Z.

Un poco más sofisticadas deberán ser las aplicaciones que faciliten el diálogo entre la máquina y el usuario. El ordenador podría preguntarnos "¿Qué quieres hacer?" y nosotros responder "Ordenar la agenda". Si falta información, se genera una nueva pregunta "¿Por qué campo deseas ordenar?".

Otra de las aplicaciones pasa por facilitar el acceso mediante línea telefónica. En España el DTMF consistente en marcar por tonos todavía no ha llegado a todos los abonados. Muchos teléfonos siguen teniendo como única opción la de los pulsos, lo que dificulta el acceso a los sistemas informáticos. Utilizando la voz, no sólo no tendremos estos problemas sino que será mucho más versátil y rápido.

También los que tengan problemas con el teclado se verán agraciados si una aplicación pude trabajar en modo "manos libres", siempre y cuando esto sea posible.

En esencia, se trata de humanizar el ordenador para que nos resulte mucho más amigable, siendo útil en todos los campos, desde juegos hasta aplicaciones de gestión. En concreto, los juegos de acción pueden convertirse en aventuras interactivas muy espectaculares.

Sin embargo, también existen ciertos casos en los que utilizar la voz es contraproducen

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información