© 2025 Javier Cañada
Substack es el hogar de la gran cultura
Política de cookies
Usamos cookies necesarias para que nuestro sitio funcione. Con tu consentimiento, también establecemos cookies de rendimiento y funcionalidad que nos ayudan a hacer mejoras midiendo el tráfico en nuestro sitio y procesamos los respectivos datos personales. Puedes retirar tu consentimiento en cualquier momento. Para obtener información más detallada sobre las cookies, tus datos personales y tus derechos, por favor consulta nuestra política de privacidad.
Excelente post! Y en efecto, cuando lanzaste el podcast del Fin de la Interfaz lo compartí con varios colegas. Sin haberlo pasado en limpio, tengo la idea de que la combinación de interfaz de voz y pantalla generan el mejor resultado posible en muchos ámbitos: la interfaz de voz sirve para requerir información filtrada, y la pantalla es más efectiva para mostrar una serie de resultados. El límite de la interfaz en pantalla es la cantidad de píxeles disponibles, y el límite de la interfaz de voz es la linealidad en el tiempo. Pongo un simple ejemplo:
Supongamos que queremos ordenar comida en una aplicación de delivery. Una aplicación sólo puede mostrar cierta cantidad de controles y resultados y filtros a la vez, antes de volverse imposible de navegar. El lenguaje es muchísimo más directo, atraviesa todos los filtros de la aplicación pero también permite crear nuevos, con una simple enunciación: "Quiero ordenar algo que llegue dentro de los 30 minutos, que comí esta semana y que no cueste más de 15 euros". La cantidad de filtros y botones que se ahorra el usuario con una enunciación tan personal (y esto es importante) triunfa frente a una interfaz tradicional.
Ahora bien, ¿qué pasa si la aplicación devuelve 5 o 10 resultados? ¿Es mejor mostrar esos resultados en una pantalla, o expresarlos mediante voz? Siempre que llamo a un número de un banco, odio la idea de tener que memorizar 6 opciones de un mensaje similar:
- si llama por sus tarjetas de crédito marque 1
- si llama por robos marque 2
- etc.
Obviamente, el ida y vuelta de una conversación con una Interfaz de Voz puede resolver varios de estos problemas, pero sigo pensando que en tanto y en cuanto aceptemos o creamos que la respuesta que nos de de primeras, será la mejor.
Gracias, Nicolas!
Creo que metes el dedo en la llaga. Yo también intuyo que habrá cosas, productos que compramos, lugares que necesitamos ver, que requerirán de una pantalla y, como dices, será algo combinado. Quizás pronto llevemos una pantalla en el bolsillo o en la muñeca que saquemos sólo puntualmente.
Respecto a los resultados múltiples (buscando hoteles, productos, películas, etc.) ahora son producto de motores de indexación y tecnologías poco avanzadas. Es decir, muchas de las cosas que vemos como listas podrían no serlo con una pregunta bien formulada o con lenguaje natural.
Hay otro escenario que es el de las vistas sintéticas: mapas, visualizaciones de datos, etc. que requieren ver el conjunto, ¿verdad? No creo que dejemos de usar pantallas grandes para cosas así (en el coche, en escritorios, etc.) pero tampoco creo que necesitemos eso en nuestros bolsillos las 24 horas.