| Artículos | 01 JUL 1997

IBM Via Voice

Tags: Histórico
Sistema de dictado natural
Oscar G. Peinado.

Hace casi un año que IBM presentaba VoiceType 3.0, un sistema de dictado mediante habla discreta (con pausas entre palabras) que daba un enorme paso en reconocimiento del habla. El último producto de IBM en este campo se llama Via Voice, y elimina la necesidad de habla discreta, facilitando mucho más el dictado a la máquina. Ahora se puede hablar de forma completamente normal y el programa se encargará de decidir por donde debe separar los sonidos para formar palabras. Esto requiere una potencia de cálculo adicional, que sitúa los requerimientos recomendados en un Pentium a 166 MHz con extensiones MMX y 32 MB de RAM. No obstante, se puede trabajar con menos potencia, aunque el reconocimiento será más lento.

Via Voice aún no está maquillado, es decir, tan sólo se ha completado el motor de reconocimiento, pero falta preparar el interface de usuario. Por esto no comentaremos aspectos como la configuración o el entrenamiento, que sólo se podrán evaluar cuando se disponga del producto final. Nos limitaremos a hablar de la potencia del núcleo del programa, que es lo que hemos probado. Entre sus posibilidades están la distinción entre palabras homófonas ("a" y "ha") o palabras y signos de puntuación ("coma" y ","). Permite la creación de macros y plantillas, de manera que un solo comando de voz se utilice para escribir textos habituales (firmas, direcciones, etc.). Además, guarda el sonido correspondiente a cada texto, para permitir la corrección posterior por la misma u otra persona.

Cuando se dicta un texto a Via Voice, éste se encarga, en primer lugar, de separar las palabras por donde considera correcto y, a continuación, realiza un análisis probabilístico para decidir si la palabra elegida es correcta. La decisión no se basa en reglas gramaticales, como pudiera parecer en un principio, sino que utiliza unas inmensas tablas de tres entradas que contienen las combinaciones habituales de palabras de tres en tres. El motivo de que esto se haga así es que la tecnología empleada es común para cualquier idioma, por lo que no se puede basar en la gramática, que difiere mucho de uno a otro. Cuando las palabras se han separado, se decide si son correctas por el contexto, por tanto, hasta que no se tengan tres palabras no se toma la decisión final. Esto crea un retardo entre el momento de la pronunciación y la aparición del texto en pantalla que no depende de la potencia de la máquina, sino de la propia naturaleza del programa. En algunos casos la decisión se puede retrasar más de tres palabras, pues si existe alguna duda se espera la siguiente triada para tomar la decisión. Este retraso puede resultar algo molesto si se está mirando la pantalla, pero lo normal es que ésta no se mire en absoluto, pues la ventaja del producto es, precisamente, que se puede estar haciendo cualquier otra cosa mientras se le habla al ordenador.

La eficacia del sistema es tal que permite alcanzar las 1.000 pulsaciones por minuto, con un porcentaje de acierto de hasta el 98 por ciento sin inscripción. La inscripción es el proceso de entrenamiento por el cual el programa se adapta a las peculiaridades de la voz y la pronunciación de cada usuario. Este proceso es recomendable realizarlo si se va a utilizar el programa habitualmente, pues mejora bastante su rendimiento, tanto en número de aciertos como en velocidad de reconocimiento. No obstante es posible trabajar sin realizar la inscripción, e incluso con la inscripción de otra persona. Y es que, aunque esto último no es nada aconsejable, nosotros se lo pusimos difícil al programa de IBM e hicimos la prueba con la inscripción de Juan Rojas, director del Área de Lenguaje de IBM y andaluz para más señas. A pesar de la diferencia de pronunciación entre ambos, cada uno con sus pequeños defectos propios, el programa logró un reconocimiento casi perfecto. En la demostración que, previamente, había realizado Juan Rojas, el reconocimiento era prácticamente del cien por cien, lo cual nos indica que con el adecuado entrenamiento del programa y hábito del usuario, casi se puede llegar a prescindir del teclado.

IBM también ha presentado Simply Speaking Gold, la nueva versión de Simply Speaking con posibilidad de posponer y delegar las correcciones, además de incorporar funciones de navegación continua y de control del sistema operativo. Hasta el momento, las ventas mundiales de los sistemas de reconocimiento de voz de IBM han sido de unas 250.000 unidades. Con el lanzamiento, a finales de Septiembre, de Via Voice IBM espera alcanzar el millón de unidades vendidas.

Simply Speaking Simply Speaking Gold Via Voice

----------------------------------------------------------------------------------------------

Habla Discreta Discreta Natural

Procesador Pentium 100 Pentium 100 Pentium 166 MMX

RAM 16 MB (32 en NT) 16 MB (32 en NT) 32 MB

Sist.operativo Windows 95 o NT Windows 95 o NT Windows 95 o NT

Precio 8.400 18.900 37.400

Disponibilidad Ya Final Septiembre Final Septiembre

IBM Via Voice

5 estrellas

FABRICANTE: IBM DISTRIBUIDOR: IBM Tel. 900 100 400 Fax (91) 519 39 90 http://www.ibm.com IDIOMA: Castellano PVP: 37.400 pesetas

oscargp@idg.es

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información