| Artículos | 01 MAR 1998

Programas de reconocimiento de voz

Tags: Histórico
IBM SimplySpeaking Gold, IBM ViaVoice, IBM ViaVoice Gold y Dragon Dictate NaturallySpeaking
Purificación García y Kiko Rial.

Los tiempos cambian deprisa y con ellos la tecnología, que no deja de sorprendernos (¿o apabullarnos?) con sus nuevos logros. Uno de los campos en los que se viene trabajando desde hace ya algunos años es el reconocimiento de la voz humana. Se trata, en definitiva, de jubilar al ratón y al teclado y, en consecuencia, las tareas y movimientos que éstos suponen. Si nuestro ordenador es capaz de reconocer la voz humana y, por tanto, reconocer y ejecutar órdenes por medio de la voz, entonces ¿para qué necesitamos mover el ratón o aporrear el teclado? Pues en principio, y obviando algunas tareas más concretas y específicas, para nada.

No se trata aquí de entrar en la típica y aburrida discusión de si es mejor o peor. Como todo en la vida, este sistema tendrá sus ventajas y sus inconvenientes. Pero, desde luego, no cabe la menor duda de que supone un gran avance en comodidad, en velocidad y en eficiencia operativa.

Pensemos, por ejemplo, que por muy virtuoso que uno diga ser, la capacidad de escribir X palabras por minuto siempre será inferior al número de palabras que pueden ser dictadas oralmente en el mismo tiempo. Lo mismo nos puede ocurrir a la hora de ?encargarle? tareas al ordenador. Pensemos también, y no es cuestión baladí, en el ahorro de espacio que supone el eliminar estos dos periféricos. Y no sólo el ahorro sino la redistribución del equipo que nos posibilita no tener que encadenar frente al monitor a sus eternos acompañantes (ratón y teclado). O la comodidad derivada del poder estar paseando tranquilamente por la habitación o despacho dándole ordenes al PC sin la necesidad de estar "amarrado" a la mesa de trabajo.

En definitiva, y aunque hasta el momento tan sólo pretendemos exponer el tema de la manera más sencilla posible, las ventajas y aplicaciones de esta nueva tecnología son indiscutibles.

Lógicamente, y dando por bueno lo dicho, la cuestión estribará en el nivel de desarrollo y eficiencia que se haya obtenido hasta la fecha en este campo, dentro de los productos que se comercializan actualmente en el mercado español. Es decir, haciendo uso de una frase de un célebre filósofo gallego: "las ventajas de las cosas son realmente ventajas cuando esas cosas proporcionan realmente esas ventajas." Y esto será precisamente lo que nos ocupe en las siguientes líneas.

¿De dónde venimos?

No se preocupe. No vamos a desarrollar a continuación la historia del software de reconocimiento de voz desde el siglo II a de C. Lo que pretendemos es comentar el pasado más presente para calibrar, de manera somera, cuál ha sido el ritmo de la evolución de este tipo de software y, en consecuencia, qué cabe esperar en el futuro más próximo dentro de este campo.

Remontándonos a principios del pasado año (1997) nos encontrábamos, siempre dentro del ámbito comercial, es decir, excluyendo aplicaciones profesionales, con productos como IBM VoiceType SimplySpeaking, JustVoice Pro 95, DragonDictate 1.3 o IBM VoiceType. Estos productos, en general, presentaban un avance importante dentro del terreno del reconocimiento de voz. Unos se centraban más en algunas tareas concretas, como la función de dictado, otros hacían mayor hincapié (alguno de manera exclusiva) en la gestión de aplicaciones, y, en cualquier caso, todos se encontraban integrados de manera satisfactoria en el sistema operativo Windows 95.

Pero, siendo objetivos, las carencias de todos ellos eran importantes. Por ejemplo, no contemplaban la posibilidad del dictado continuo, lo cual es, de raíz, antinatural. Es decir, la sensación que se siente al tener que hablar haciendo pausas en cada palabra resulta, cuando menos y por ser diplomáticos, muy incomoda.

Por otro lado, la dependencia del hardware del resultado exitoso del reconocimiento de la voz eran muy altas. En ese momento ya era casi imprescindible un procesador Pentium y, a ser posible, con la tecnología MMX. Y tampoco podemos olvidarnos de la cuestión económica. Si bien el precio de los productos no era prohibitivo, no podemos ni debemos olvidar que, como acabamos de comentar, los requerimientos de hardware eran, y son, muy elevados. No obstante, en la actualidad los ordenadores más baratos son ya Pentium MMX a 166 MHz, que permiten ejecutar con comodidad los programas de reconocimiento de voz.

Pero dejemos de hablar del engorroso asunto del dinero y volvamos a cuestiones un poco más técnicas. Hace tan sólo un año los programas de reconocimiento de voz presentaban una elevada necesidad de realizar un cierto período de entrenamiento para que la cosa funcionara. Esto es, antes de comenzar a trabajar con ellos era necesario, si queríamos resultados de cierta calidad, acostumbrar, o mejor dicho, educar al ordenador a la voz y forma de pronunciar del usuario. En honor a la verdad hay que añadir que algunos de estos programas, como era el caso concreto del IBM VoiceType, requerían niveles de adiestramiento muy inferiores respecto a sus competidores. Pero siguiendo con esto del honor y la verdad, lo cierto es que todos ellos, en mayor o menor medida, necesitaban una buena dosis de entrenamiento.

Otra cuestión a resaltar es que todos estos programas eran, realmente, simples programas de dictado. Es decir, su aplicación principal y casi exclusiva era la de funcionar como procesador de texto; eso sí, activado por la voz en vez del tradicional e indispensable teclado. Pero la interactuación con otras aplicaciones era prácticamente nula. Apenas se limitaban a poder arrancar, cerrar, minimizar o restaurar otros programas coexistentes en nuestro ordenador. En resumen, y por no alargarnos innecesariamente, lo que nos encontrábamos en el mercado español a principios del pasado año eran productos de buena calidad pero que todavía estaban dando sus primeros pasos dentro de este terreno casi virgen. Y decimos casi virgen porque si miramos hacia adelante y contemplamos las opciones y posibilidades que quedan por abordar, nos daremos cuenta pronto de que éstas son casi ilimitadas.

En tan sólo un año hemos apreciado unos avances realmente significativos. Así que no sería aventurado pensar que en menos tiempo del esperado, podremos contar con programas que prescindan totalmente del teclado y el ratón, hablando de una forma totalmente natural. El dictado continuo, a una velocidad comparable a la del habla natural, es uno de los mayores avances logrados, junto con la posibilidad de dictar comandos directamente a los programas, es decir ejercer el control de programas mediante la voz. Otras de las mejoras encontradas es el alto reconocimiento inicial de la voz (es decir, sin entrenamiento previo), además de la alta capacidad de aprendizaje de los programas a medida que se van utilizando.

Programas de reconocimiento de voz

El panorama actual de los programas de reconocimiento de voz en el mercado español es el siguiente. Existen programas económicos, como IBM SimplySpeaking (10.500 pesetas) o Gensoft VocalWorks (11.000 pesetas), que ofrecen únicamente características de dictado (no de comandos por voz) y, además, ese dictado exige pausas entre las palabras (dictado discreto). Hoy en día, no merece la pena gastar dinero en este tipo de productos, pues por sólo 10.000 pesetas más se puede acceder a programas que ofrecen características mucho más interesantes.

Partiendo del antiguo VoiceType como base, IBM ha desarrollado dos nuevos programas: SimplySpeaking Gold (21.000 pesetas) para el reconocimiento de comandos y ViaVoice (21.000 pesetas) para el dictado. Por su parte, el programa NaturallySpeaking de Dragon Dictate (34.000 pesetas) ofrece tanto dictado continuo como reconocimiento de comandos. Estos tres programas, en los que se centra en el artículo, son los primeros programas de reconocimiento de voz que son realmente operativos y que pueden optimizar la productividad del usuario. Existe también el programa GenSoft SpeakNaturally (30.000

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información