Alexa, ¿cómo funciona Siri? Explicación del control de voz

Ahora podemos charlar con casi todos nuestros dispositivos, sin embargo ¿cómo actúa exactamente? Cuando preguntas «¿Qué canción es esta?» o di «Llama a mamá», está ocurriendo un milagro de la tecnología moderna. Y aunque parece que está a la vanguardia, esta idea de departir con dispositivos se remonta a décadas atrás, ¡casi tan lejos como los jetpacks en la ciencia ficción!

Hoy en día, la mayoría de la importancia que se ofrece a la informática impulsada por voz está en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google están en el lado superior de la cadena y cada uno proporciona su única forma de dialogar con la electrónica. Ya sabes quiénes son: Siri, Alexa, Cortana y el ser sin nombre «Ok, Google». Lo que plantea una gran pregunta…

¿Cómo toma un dispositivo las palabras habladas y las convierte en órdenes que puede entender? En esencia, se refiere a elaborar coincidir patrones y elaborar predicciones fundadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea complicada que proviene del Modelado Acústico y el Modelado del Lenguaje.

Modelado acústico: maneras de onda y teléfonos

El modelado acústico es el proceso de tomar una manera de onda del habla y analizarla utilizando modelos estadísticos. El método más común para esto es el modelado oculto de Markov, que se utiliza en lo que se denomina modelado de pronunciación para dividir el habla en componentes llamados teléfonos (que no deben equivocarse con los dispositivos telefónicos reales). Microsoft ha sido un investigador líder en este campo durante varios años.

Modelado oculto de Markov: Estados de probabilidad

El modelado oculto de Markov es un modelo matemático predictivo en el que el estado reciente se determina mediante el análisis de la salida.

Imagine dos amigos, un amigo local y un amigo remoto, que viven en diferentes ciudades. Local Friend quiere buscar cómo es que día hace hoy donde vive Remote Friend, sin embargo Remote Friend solo quiere dialogar sobre lo que hizo ese día: caminar, comprar o limpiar. La probabilidad de cada actividad en característica del clima del día.

Saber más:   Cómo obtener resúmenes de noticias diarios con Siri todas las mañanas

Pretende que esta es la propia información disponible. Con él, Local Friend puede encontrar tendencias sobre cómo cambió el tiempo que hace de un día a otro y, al utilizar estas tendencias, puede comenzar a desarrollar conjeturas informadas sobre cuál será el tiempo que hace de hoy conforme con la actividad de su amigo ayer. (Puede ver un diagrama del sistema arriba).

En el reconocimiento de voz, este modelo principalmente compara cada parte de el estilo de onda con lo que viene antes y lo que viene después, y con un diccionario de modos de onda para descubrir qué se está diciendo.

Esencialmente, si haces un sonido «th», comparará ese sonido con los sonidos más probables que frecuentemente vienen antes y después. posiblemente eso signifique monitorizar el sonido «e», el sonido «at», etc. Cuando el patrón coincide correctamente, entonces posee su palabra completa. Esta es una simplificación excesiva, sin embargo puede ver la explicación completa de Microsoft aquí.

Modelado del lenguaje: más que sonido

El modelado acústico contribuye en gran medida a que su ordenador lo entienda, sin embargo ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde accede en juego el modelado del lenguaje. Google ha llevado a cabo una gran variedad de investigaciones en esta área, fundamentalmente mediante el uso de N-gram Modeling.

Cuando Google intenta entender su discurso, lo hace basándose en modelos derivados de su enorme banco de búsqueda por voz y transcripciones de YouTube. Todos esos subtítulos de video hilarantemente incorrectos han ayudado a Google a hacer sus diccionarios. Además, utilizaron el GOOG-411 desaparecido para recopilar información sobre cómo habla la gente.

Toda esta colección de lenguajes creó una amplia gama de pronunciaciones y dialectos, lo que hizo un diccionario fuerte de palabras y cómo suenan. Esto acepta concordancias que tienen una tasa de error mucho menor que la coincidencia de fuerza bruta fundada en probabilidades brutas. Puede leer un breve artículo que describe sus métodos aquí.

Si bien Google es líder en este campo, se están desarrollando otros modelos matemáticos, incluidos los modelos de espacio continuo y los modelos de idioma posicional, que son técnicas más avanzadas nacidas de la investigación en capacidad artificial. Estos métodos se basan en replicar el tipo de razonamiento que realizan los humanos cuando se escuchan unos a otros. Estos son mucho más avanzados tanto en términos de la tecnología detrás de ellos como de las matemáticas y la programación necesarias para trazar estos modelos.

Saber más:   Enseña a Siri a pronunciar nombres y a usar apodos

Modelado N-Gram: la probabilidad se encuentra con la memoria

El modelado de N-Gram actúa conforme con las probabilidades, sin embargo utiliza un diccionario de palabras existente para crear un árbol ramificado de posibilidades, que posteriormente se suaviza en aras de la eficiencia. En cierto modo, en consecuencia que el Modelado de N-Gram elimina mayoría de la incertidumbre en el Modelado Oculto de Markov antes mencionado.

Como se señaló anteriormente, la fuerza de este método proviene de tener un gran diccionario de palabras y usos, no solo sonidos primitivos. Esto le da al programa la inteligencia de distinguir entre homófonos, como «beat» y «beet». Es contextual, lo que implica que cuando se habla de las puntuaciones de anoche, el programa no expresa palabras sobre el borscht.

Pero estos modelos de hecho no son los mejores para el lenguaje, fundamentalmente como consecuencia de problemas con las probabilidades de palabras en oraciones más largas. A medida que añade más palabras a una oración, este modelo se descompone un poco, puesto que es poco aceptable que sus primeras palabras hayan cargado todo lo necesario para su pensamiento completo.

Sin embargo, es fácil y simple de implementar, lo cual lo convierte en una gran combinación para una empresa como Google que disfruta lanzando servidores a problemas computacionales. Puede leer más sobre N-gram Modelieng en la Universidad de Washington, o puede ver una conferencia en Coursera.

Gritando a las nubes: aplicaciones y dispositivos

Cualquiera que haya utilizado Siri conoce la frustración de una conectividad de red lenta. Esto se debe a que sus órdenes a Siri se envían por medio de la red de modo que Apple los decodifique. Cortana para Windows Phone incluso requiere una conectividad de red para ejercer correctamente. Sin embargo, en contraste, el Echo de Amazon es solo un altavoz Bluetooth sin Internet.

¿Por qué la diferencia? Porque Siri y Cortana necesitan servidores resistentes para decodificar su voz. ¿Se puede realizar en tu teléfono o tableta? Claro, sin embargo mataría su rendimiento y la duración de la batería en el proceso. cómodamente posee más sentido descargar el procesamiento a máquinas dedicadas.

Saber más:   ¿Qué es Siri y cómo puede ayudarme Siri?

Piénsalo de esta manera: tu mando es un automóvil atascado en el barro. seguramente podría sacarlo usted propio con bastante tiempo y esfuerzo, sin embargo tomará horas y lo dejará exhausto. En su lugar, llama a la asistencia en carretera y sacan su vehículo en solo unos minutos. La desventaja es que tienes que ejecuta la llamada y esperarlos, sin embargo no obstante es más rápido y menos exigente.

Los modelos de escritorio como Nuance tienden a usar recursos locales debido al hardware más potente. Al fin y al cabo, en palabras de Steve Jobs, tu escritorio es un camión. (Lo que hace que sea un tanto tonto que OS X esté utilizando servidores para su procesamiento ). Entonces, cuando necesita procesar el idioma y la voz, ya está lo convenientemente bien equipado para manejarlo por sí solo.

Por otro lado, Android acepta a los programadores integrar reconocimiento de voz sin conectividad en sus aplicaciones. A Google le encanta adelantarse a la tecnología, y puede apostar que las otras plataformas obtendrán esta inteligencia a medida que su hardware se vuelva más poderoso. A nadie le encanta cuando la mala cobertura o la mala recepción lobotomizan su dispositivo.

Alexa, ¿cómo funciona Siri? Explicación del control de voz

Comience a utilizar las acciones de voz ahora

Ahora que conoce los conceptos fundamentales, debe jugar con sus variados dispositivos. Prueba el moderno dictado por voz en Google Docs. Como si la suite ofimática web no fuera lo convenientemente potente, el control por voz le acepta dictar y formatear absolutamente sus documentos. Esto amplía la poderosa tecnología que ya diseñaron para Chrome y Android.

Otras ideas abarcan configurar su Mac para utilizar órdenes de voz y configurar su Amazon Echo con pago automático. Vive en el futuro y admite departir con tus dispositivos, también si solo estás pidiendo más toallas de papel. Si eres un adicto a los teléfonos inteligentes, además tenemos tutoriales para Siri, Cortana y Android.