La tecnología de reconocimiento de voz no nació con el Apple iPhone 4s- el primero en el que apareció Siri. La atención telefónica lleva utilizando esta forma de interacción muchos años. Y no deja de ser un reflejo de la mejora de la técnica el que la máquina antes entendiera al humano de pascuas a ramos mientras que ahora la precisión ha aumentado. Éste es el método tradicional, el de los comandos de voz.
Hoy día se está acompañando a estos comandos de una capa de lenguaje natural. Así lo expresa Marco A. Piña Sánchez, director de ventas de empresa y movilidad para Iberia de Nuance, una compañía que proporciona reconocimiento de voz al smartwatch de Samsung, Galaxy Gear, al Galaxy Note III y también está presente en Siri. “En vez de decir ‘tarjeta’ o decir ‘saldo’ se puede decir directamente ‘quiero saber el saldo de mi cuenta que acaba en 23 y hacer una transferencia de 100 euros a la cuenta que acaba en 45’. Es decir, se está estableciendo una capa más de diálogo”, explica, aclarando que tras procesar el sonido, la máquina acude a la base de datos del banco en busca de la respuesta.
Pero, ¿cómo es capaz el software de reconocer el habla? Un sistema de reconocimiento de voz está formado por varias capas o modelos, según señala Piña. El primero de ellos es el modelo acústico, que permite a la tecnología identificar si el sonido procede de una llamada de móvil, de un teléfono IP o cualquier otro medio. Determinar el canal de comunicación es importante para establecer el grado de distorsión que puede experimentar el mensaje.
El modelo lingüístico va a continuación y se trata del idioma. Pero no es tan sencillo como indicar al sistema que reconozca castellano, francés o mandarín. “Nuestro software está perfectamente preparado para portugués, pero en ocasiones nuestra gente de servicios tiene que hacer algunas pequeñas modificaciones, por ejemplo para entender el portugués que se habla en Madeira, que puede tener algún giro especial”, comenta el directivo de Nuance. No sólo es preciso entender la lengua sino los distintos acentos con que se habla e incluso entender las formas de expresarse, que pueden ser diferentes en cada hablante.
Ésta es otra capa más: el modelo semántico. Con él se consigue que un sistema de reconocimiento de voz entienda la forma de hablar de la gente, cómo se construyen las frases y cómo puede variar esta construcción, dependiendo de la región, de la cultura y de todas las influencias personales de cada cual. Por último, funciona un motor estadístico, que recoge la frase una vez transcrita a texto y realiza una búsqueda en la base de datos con estos términos.
Esta consulta tiene que adivinar si la frase dicha, con el nivel de distorsión correspondiente si se habla desde un móvil, el acento y la forma de decirlo están pidiendo una determinada acción. La precisión del software al final se reduce a aumentar la base de datos para alcanzar todas las combinaciones posibles en un idioma. Es más, en cada nuevo entorno que se implementa hay que construir un nuevo modelo semántico.
“Ante un proyecto empresarial, lo primero que tenemos que hacer es saber cómo los clientes preguntan a esa compañía”, puntualiza Piña. “Llegará, pero todavía no estamos a un nivel de inteligencia artificial en el que yo pongo un software y, sea una telco, sea una financiera, una empresa de transportes o una textil, pueda entender cualquier cosa que yo le diga de ti”, señala.
Fuente: eldiario.es
Licencia CC