Siri es el asistente personal de Apple muy utilizado en los países de habla inglesa pero que poco a poco se está comenzando a utilizar más en otros idiomas, como por ejemplo el español. Detrás de esta apariencia de simple asistente se esconde toda una potente maquinaria creada con avanzadas técnicas de IA capaz de evolucionar y aprender del usuario. Nosotros nos preguntamos cómo funciona pero además, también queremos saber qué pasa con todas esas frases que le has dicho a Siri.
Siri se lanzó en 2011 como la aplicación estrella de su iOS versión 5. Siri está disponible en varios idiomas, como el sueco o el malayo. Inicialmente fue creada en 2007 por el grupo SRI, partiendo de un proyecto CALO sobre el cual está, nada más y nada menos, que DARPA (departamento de defensa de los EEUU). Apple compró finalmente Siri a la compañía el 28 de abril de 2010.
Para activar Siri no es necesario pulsar ningún botón, sólo tenemos que decir "Oye Siri" ("Hey Siri" en inglés). Cuando dices "Oye Siri" al micrófono de tu iPhone o Apple Watch, un programa analiza la forma de onda de tu voz y la convierte en pequeños trozos (0.2 segundos de audio) creando un patrón. Este patrón resultante es analizado por una Deep Neural Network (DNN) la cual asigna a cada patrón acústico resultante una probabilidad (puntuación) de similitud con otros tipos de patrones base almacenados previamente por Siri.
La parte más importante de Siri es el modelo acústico, ya que es el encargado de procesar cada trozo de audio y compararlo con los modelos previamente almacenados. La DNN del modelo acústico ha recibido un proceso de entrenamiento utilizando cientos de variantes del idioma correspondiente utilizando miles de frases de entrenamiento, analizando todos los parámetros de las frases obtenidas. Para entrenar estos modelos, Apple utiliza herramientas muy conocidas como Theano, Tensorflow y el software de reconocimiento de audio llamado Kaldi. A continuación podemos ver los diferentes estados de la señal acústica recibida cuando recibe la frase "Hey Siri What ...":
Figura 1. Flujo del proceso de activación de Siri. Fuente. |
La parte más importante de Siri es el modelo acústico, ya que es el encargado de procesar cada trozo de audio y compararlo con los modelos previamente almacenados. La DNN del modelo acústico ha recibido un proceso de entrenamiento utilizando cientos de variantes del idioma correspondiente utilizando miles de frases de entrenamiento, analizando todos los parámetros de las frases obtenidas. Para entrenar estos modelos, Apple utiliza herramientas muy conocidas como Theano, Tensorflow y el software de reconocimiento de audio llamado Kaldi. A continuación podemos ver los diferentes estados de la señal acústica recibida cuando recibe la frase "Hey Siri What ...":
Figura 2. Fases del proceso de análisis de la frase "Hey Siri What ...". Fuente. |
En la sección del gráfico marcada con el número 1 en rojo, podemos ver la forma de onda captada directamente por el micrófono equivalente a la frase "Hey Siri What ...". Las partes más brillantes que se observan en la imagen son las que tienen mayor volumen de voz. La sección marcada con el número 2, muestra el resultado final de realizar un proceso de ajuste y limpieza de la señal captada en la fase 1 del proceso. La número 3 muestra en verde los diferentes valores numéricos asignados a cada trozo de la frase introducida después de compararlos con los diferentes patrones que Siri tiene almacenados. La sección número 4 muestra la evolución del procesamiento final aplicado por el modelo acústico hasta conseguir una puntuación. Esta puntuación finalmente se compara con unos patrones los cuales decidirán activar o no Siri. Este mismo proceso se aplica también para el resto de frases recibidas después de la activación. Este tema es bastante complejo y extenso para poder explicarlo en profundidad en este artículo pero puedes obtener más información en este enlace.
Pero ¿qué ocurre con la información que guarda Siri?. Apple genera una serie de números aleatorios para asociar los ficheros de voz recibidos para de esa forma mantener anónima la identidad del usuario. Estas frases se reutilizarán posteriormente para entrenar la DNN que hemos mencionado antes para ir creando mejores patrones los cuales ayudarán a Siri a ir ajustando su nivel de compresión de la información recibida. Apple puede guardar esta información un máximo de dos años. Pasado ese tiempo Apple tiene la obligación de eliminarlos (seis meses más tiempo que otros servicios similares de empresas como Google o Microsoft). De todas formas, los problemas legales referentes al uso y desarrollo de Siri siguen siendo un quebradero de cabeza, tanto para Apple como para el usuario final.
I read some articles on this site and I think your blog is really interesting and has great information. Thank you for your sharing.
ResponderEliminar