Navegación por comando de voz

Las personas con alguna discapacidad motriz pueden utilizar muchos tipos de tecnologías de apoyo según sus preferencias y diversidades funcionales, mientras que algunos podrán utilizar el teclado o teclados adaptados otros usaran mouse adaptados, seguimiento ocular y/o control de voz.

Pipi Marquez
9 min readDec 12, 2023

Existen muchas tecnologías de hardware o software que permitan mejor control sobre las interfaces y hoy profundizaremos en la herramienta para el celular llamadas comando o control por voz.

Este articulo tiene dos partes, la primera en donde te cuento los básicos y te enseño a configurarlo y una segunda parte dirigida a pensar una mejor experiencia para usuarios de control por voz.

Primera parte: Básicos de comando o control por voz

Si nunca escucharon de esta tecnología les dejo un video de Voice Access la herramienta de Android para control por voz:

Y este video de Apple voice control

Los softwares de reconocimiento de voz para controlar los dispositivos puede ser utilizado tanto por personas con discapacidades motrices como por quien por alguna razón situacionalmente no pueda utilizar sus manos para controlar sus dispositivos.

¿Cómo se navega?

La forma de navegación es utilizando la voz, para esto el dispositivo utiliza el micrófono del usuario y los comandos en un idioma predeterminado que deberemos descargar según el dispositivo.

El usuario da instrucciones que el dispositivo, sistema operativo o software comprende y puede ejecutar, el control por voz emula toques en la interfaz como si fueran clicks o tabs. En mobile podemos interactuar con los elementos que están en pantalla de tres formas para saber que elementos son interactivos.

  • Mostrar cuadricula
  • Mostrar números
  • Mostrar nombres
Pantallazo de interacción con cuadricula, con nombres y con números

Solo los elementos que tengan interacción se verán con una etiqueta ya sea de nombre o de número.

En el caso de la cuadricula podremos tocar una cuadricula o volver a seleccionar uno de los números de la grilla para que vuelva a dividirse en una cuadricula.

Datito: En la actualidad los lectores de pantalla y comando de voz no interactúan bien, por lo que esta tecnología está pensada para usuarios visuales.

Comando de voz vs Asistente de voz

Si se estaban preguntando si esto es lo mismo que los asistente de voz que tambien podemos controlar dando instrucciones, vamos a diferenciar esta tecnología.

Comando por voz

Los comandos de voz en Android y iPhone permiten a los usuarios interactuar con sus dispositivos utilizando su voz en lugar de tocar la pantalla o usar el teclado. Nos permite controlar los dispositivos, navegar por internet o dentro del dispositivo, escribir mensajes y emails, hacer llamadas y controlar aplicaciones a través de instrucciones orales específicas.

Un ejemplo de uso podria ser “aumentar el volumen”, “abrir Gmail” “tocar enviar”.

Asistente virtual

Un asistente personal inteligente es un agente tipo software que puede realizar tareas u ofrecer servicios a un individuo. Está diseñado para realizar tareas y proporcionar información en respuesta a comandos de voz o texto. Puede ser un agente digital interactivo que utiliza inteligencia artificial para entender y ejecutar las solicitudes del usuario.

Los asistentes virtuales suelen ser más amplios en términos de funcionalidad. Pueden responder preguntas, realizar tareas específicas, ofrecer recomendaciones y aprender de las interacciones del usuario.

Estas tareas o servicios están basados en datos de entrada de usuario, reconocimiento de ubicación y la habilidad de acceder a información de una variedad de recursos en línea (como al clima o al tráfico, noticias, precios de acciones, horario del usuario, precios al por menor, etc).

Algunos ejemplos de asistentes:

  • Siri de Apple,
  • Google Assistant y Google Now
  • Amazon Echo de Amazon
  • Cortana de Microsoft
  • S Voice de Samsung
  • Voice Mate (de LG TV)
  • Celia de Huawei.

Un ejemplo de uso podría ser “poner alarma a las 7:00” o “cuál es el clima hoy”.

En resumen, mientras que el comando por voz se centra en emitir comandos para realizar acciones específicas o simplemente el manejo de la interacción con el dispositivo, los asistentes virtuales van más allá, ofreciendo una amplia variedad de funciones, interacción conversacional y la capacidad de aprender y adaptarse a las necesidades del usuario con el tiempo.

Usando comando de voz en iOS

¿Cómo la obtengo?

Lo interesante en iOS es que no necesitamos descargar ninguna app porque viene dentro de las configuraciones de accesibilidad.

Para acceder a esta herramienta nos dirigiremos a “Configuración” luego a “Accesibilidad” y finalmente a “Control por voz”

Pantallazo de donde encontrar control por voz de iOs

¿Cómo la início en IOS?

Antes de iniciarlo recomiendo que nos aseguremos de tener activado “Mostrar consejos”. Luego vamos a “Configurar control por voz” y seguimos las instrucciones del tutorial.

Pantallazo de configuración de iOs

Si presionamos Más información en el link de la configuración del control por voz, se abrirá un modal que da información sobre que podemos realizar y una lista de comandos que te comparto a continuación.

¿Qué puedo decir?

Comandos del sistema y navegación

  • Abrir [nombre de la app]
  • Ir a pantalla de inicio
  • Abrir centro de control
  • Atrás
  • Ir a dormir

Funciones con lo que se muestra en pantalla

  • Mostrar cuadrícula
  • Mostrar nombres
  • Tocar [número]
  • Tocar [nombre del elemento]
  • Mantener presionado [nombre del elemento]
  • Deslizar a la izquierda
  • Deslizar hacia arriba [número]

Dictar y editar texto

  • seleccionar [frase]
  • Ir hacia abajo
  • Desplazarse final
  • Eliminar eso
  • Corregir [frase]
  • Convertir eso a mayúscula
  • Copiar eso

Interactuar con el dispositivo

  • Subir volumen
  • Bloquear pantalla
  • Tomar captura de pantalla
  • Activar inversión de colores inteligente
  • Abrir Apple Pay

Usando comando de voz en Android

¿Cómo la obtengo?

Para poder utilizar este software en Android deberemos descargar la app de acceso por voz del Play Store

¿Cómo la início en Android?

Primero hay que configurarla. Vamos a ir a Configuración accesibilidad luego a voice Access y de ahí a configuración y al botón de activación o presionando en “usar voice Access” no el switch si no la palabra esto nos desplegara un modal con opciones

Luego para iniciarlo lo haremos según lo hayamos configurado:

Si se activó la detección de “Hey Google”, puedes decir “Hey Google, Acceso por voz”.

En la pantalla principal, presiona la app de Acceso por voz presiona el botón de activación de Acceso por voz

Tocar el botón de accesibilidad (los botones de volumen al mismo tiempo por unos segundos)

Comandos generales para español

  • Abrir [app]
  • Ir atrás
  • Ir a la página de inicio
  • Mostrar notificaciones
  • Mostrar Configuración rápida
  • Mostrar apps recientes

Comandos de ayuda

  • ¿Qué puedo decir?
  • Mostrar todos los comandos
  • Abrir tutorial
  • Mostrar números
  • Ocultar números
  • Mostrar etiquetas
  • Ocultar etiquetas
  • ¿Qué es [número]?
  • Detener el Acceso por voz
  • Enviar comentarios

Comandos de configuración

  • Activar Bluetooth
  • Desactivar Bluetooth
  • Subir el volumen
  • Bajar el volumen
  • Silenciar
  • Desactivar sonido
  • Activar sonido

En general el control de voz siempre utilizara comandos similares en uno u otro sistema operativo. Por ejemplo: si ves las palabras “horarios de atención” con un vínculo en un párrafo de texto. Puedes decir “presionar el horario de atención” para presionarlo.

  • Presionar + texto link
  • Pulsar + texto link
  • Tocar + texto link

Te recomiendo que primero configures, segundo tengas a mano la lista de comandos y tercero lo enciendas y trates de usar tu celu solo con ordenes por voz no toques la pantalla. Trata de navegar por una red social, mandar un whatsapp, leer un email. Para que puedas probar la interacción y asi descubrir cuales son las barreras más frecuentes para los usuarios de control por voz. A continuación te dejo una lista de los errores que más he notado que suceden en el diseño y desarrollo de interfaces mobile.

Segunda parte: Errores que se están cometiendo en el diseño de interfaces para usuarios de comando por voz

  • Gestos complejos sin alternativas simples
  • Modales sin manejadores que impiden el desplazamiento de la persona y modales inferiores que no se pueden desplazar en apps.
  • Nombres no accesibles
  • Inputs sin etiquetas visibles
  • Nombres impronunciables para las etiquetas

No todos los errores son de diseño, pero la mayoria sí, asi que ten cuidado y si vos estas diseñando presta much atención, más adelante te dejo cuales creo yo que son las WCAG afectadas cuando diseñamos malas experiencias para usuarios de control por voz.

¿Cómo diseñamos mejores interfaces para controles de voz?

Gestos complejos

Es importante proporcionar comandos de voz alternativos para los gestos complejos, permitiendo a los usuarios realizar la misma acción de manera más sencilla mediante la voz. Puedes ocupar la alternativa que diseñaras para otros tipos de usuario que usan el control de las interfaces por ejemplo con un solo punto de apoyo o el sistema que podría utilizar un usuario de lector de pantalla que a veces no tiene la posibilidad de ejecutar un gesto complejo como los basados en ruta. Lo recomendable es que si tenemos un gesto complejo tambien tengamos una alteranativa a la misma acción que se puedan hacer con un solo punto de apoyo.

Cuidado con los modales y widgets personalizados

Los modales son lo peor que le puede pasar a la navegación por voz, por que suelen no tener manejadores o estar en una capa que no es alcanzada por el comando de voz que interactua con la interfaz de manera superficial. Asegurate de que los modales tengan manejadores visibles(como los de los costados). Siempre que tengas un modal en tu interfaz asegúrate de que estos sean accesibles por voz y que proporcionen maneras de salir o cerrar el modal. ¿Cómo? Haz la prueba ya aprendiste como se usan.

Trata de diseñar elementos de la interfaz que utilicen patrones de interacción extendidos y conocidos por los usuarios o que se perciban como fáciles de comprender para evitar la confusión en el uso.

Siempre que crees un componente recuerda que ese componente se parece a otra cosa y tiene que poder ser interactuado con mouse, con teclado, con control por voz, con lector de pantalla.

Etiquetas y nombres accesibles

Asegúrate de que los usuarios puedan identificar y entender la función de cada campo de entrada mediante comandos de voz. Todas las etiquetas deberian ser visibles y los nombres de accesibilidad deben ser similares a las etiquetas visibles

Asegúrate de que todos los elementos tengan nombres claros y descriptivos. Define nombres accesibles para objetos, botones y otros elementos interactivos. Estos nombres deben ser pronunciables y comprensibles por el usuario.

Realizar pruebas de usabilidad

Realiza pruebas de usabilidad específicas para la accesibilidad por voz con usuarios reales para identificar problemas específicos y validar soluciones. Es importante entender que los prototipos de control por voz pueden crearse y probarse en etapas tempranas del desarrollo asi que no hay excusa para no hacerlo.

Podemos hacerlo con el prototipo de siempre, no requiere ningun ajuste. Esto debido a que para que la interacción ocurra solo necesitamos usar lo que se ve en pantalla.

Lo que haremos para realizar la prueba de usabilidad será establecer como en cualquier prueba los objetivos, las tareas y nuestros documentos estándar y le pediremos al usuario que cumpla la tarea como lo haría usando sus comandos habituales de control por voz. Cuando hagamos esto podremos detectar cuales son los espacios que causan mayor incertidumbre, frustraciones o barreras para completar tareas.

Recuerda la mayoría de los prototipos pueden ser navegados con control por voz de 3 maneras principales: Mostrando la cuadricula, Mostrando los nombres y Mostrando los números. En este caso los elementos que se anuncien serán los que tienen funcionalidad.

Recuerda que mientras más obvio sea que el elemento es interactivo más simple será para el usuario lograr una navegación natural con tu producto

Documentación y retroalimentación

Proporciona documentación clara sobre cómo usar comandos de voz en tu aplicación, eso facilitara a los usuarios su uso.

Siempre acepta retroalimentación de usuarios para mejorar continuamente la accesibilidad. Si puedes crear un camino directo a tus usuarios eso favorecerá tu producto.

Esto es una buena práctica no solo para comando de voz sino también para cualquier otra tecnología de apoyo.

Cumplir el estandar

Asegúrate de seguir las pautas de accesibilidad relevantes, como las WCAG, para garantizar que tu aplicación sea accesible para todos los usuarios. Particularmente los usuarios de control de voz pueden beneficiarse de los siguientes criterios:

  • Criterio 2.2.1: Tiempo suficiente (A):
  • Criterio 2.5.4: Actuación de movimiento (Nivel A)
  • Criterio 2.5.1: Gestos de puntero (Nivel A)
  • Criterio 2.5.3: Etiqueta en Nombre (Nivel A)
  • Criterio 4.1.2: Nombre, función, valor (A):
  • Criterio 2.5.7: Movimientos de arrastre (Nivel AA)
  • Criterio 2.5.8: Target Size (Minimum) (Level AA)

Espero que esta pequeña guía de navegación por comando de voz te ayude.

¿Quieres saber algo más? Te leo en las redes sociales.

--

--

Pipi Marquez

UX UI especializada en accesibilidad. Co-founder en DALAT. Instagram @pipimarquez.ux En Linkedin https://www.linkedin.com/in/marquezsilvia/