Anuncio

Miles de empleados de Amazon escuchan lo que la gente le dice a Alexa

Share

Decenas de millones de personas usan bocinas inteligentes y su software de voz para jugar, encontrar música o buscar trivialidades. De igual manera, otros tantos millones, se resisten a adquirir dispositivos y sus poderosos micrófonos para sus hogares, ante la preocupación de que alguien pueda estar escuchando, y, algunas veces, así es.

Amazon.com Inc. emplea a miles de personas en todo el mundo para ayudar a mejorar al asistente digital, Alexa, que funciona con su línea de bocinas Echo. El equipo escucha las grabaciones de voz capturadas en los hogares y oficinas de los propietarios de Echo. Las grabaciones se transcriben, se analizan y luego realimentan el software en un intento por eliminar las brechas de comprensión del lenguaje humano por parte de Alexa, y así, ayudarla a responder mejor a los usuarios.

El proceso de revisión de voz de Alexa, descrito por siete personas que trabajaron en el programa, destaca el rol humano que a menudo es pasado por alto en la formación de los algoritmos de software. En el material de mercadotecnia, Amazon dice que Alexa “vive en la nube y se vuelve constantemente más inteligente”. Pero al igual que con muchas otras herramientas de software creadas para aprender de la experiencia, los humanos son quienes se ocupan de la enseñanza.

Anuncio

El equipo está compuesto por una combinación de contratistas y empleados de tiempo completo de Amazon que trabajan en puestos remotos ubicados desde Boston a Costa Rica, India y Rumania, según los propios empleados, que firmaron acuerdos de confidencialidad y no pueden hablar públicamente sobre el programa. Los contratados trabajan nueve horas al día, y cada supervisor analiza hasta 1.000 clips de audio por turno, según dos empleados de la oficina de Amazon en Bucarest, que ocupa los tres pisos superiores del edificio Globalworth en el prometedor distrito Pipera de la capital rumana. Las modernas instalaciones se destacan en medio de la infraestructura desmoronada y no hay ningún letrero exterior que anuncie la presencia de Amazon ahí.

El trabajo es mayormente trivial. Un empleado de Boston comentó que extrajo datos de voz acumulados para expresiones específicas, como “Taylor Swift”, y los anotó para indicar que el buscador se refería a la artista pop. De vez en cuando, escuchan cosas que los propietarios de un Echo probablemente preferirían guardar para su privacidad: una mujer que canta mal en la ducha, por ejemplo, o un niño que grita por ayuda. El grupo de trabajo usa chat interno para compartir archivos cuando necesitan ayuda para analizar una palabra confusa, o cuando encuentran una grabación divertida.

A veces escuchan audios que resultan perturbadores o posiblemente delictivos; dos empleados escucharon lo que, creen, fue un ataque sexual. Cuando algo así sucede, pueden compartir la experiencia en el chat interno como una forma de aliviar el estrés. Amazon señala que se implementaron procedimientos a seguir por los trabajadores cuando encuentran algo perturbador, pero dos empleados con sede en Rumania afirmaron que, después de solicitar orientación para tales casos, se les dijo que no era tarea de Amazon interferir.

“Tomamos en serio la seguridad y privacidad de la información personal de nuestros clientes”, remarcó un portavoz de Amazon en un comunicado enviado por correo electrónico. “Sólo comentamos una muestra extremadamente pequeña de las grabaciones de voz de Alexa para mejorar la experiencia del cliente. Por ejemplo, esta información nos ayuda a capacitar nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural, para que Alexa pueda entender mejor las solicitudes y garantizar que el servicio funcione bien para todos”.

“Tenemos estrictas garantías técnicas y operativas, y tenemos una política de tolerancia cero para el abuso de nuestro sistema”, continúa la declaración. “Los empleados no tienen acceso directo a la información que puede identificar a la persona, o la cuenta como parte de este flujo de trabajo. Toda la información se trata con alta confidencialidad y utilizamos la autentificación de múltiples factores para restringir el acceso, el cifrado del servicio y las auditorías de nuestro entorno de control para protegerlo”.

Amazon, en su política de marketing y privacidad, no dice claramente que los humanos escuchan las grabaciones de algunas de las conversaciones captadas por Alexa. “Usamos sus pedidos a Alexa para capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural”, señala la empresa en una lista de preguntas frecuentes.

En la configuración de privacidad de Alexa, la compañía ofrece a los usuarios la opción de desactivar el uso de sus grabaciones de voz para el desarrollo de nuevas funciones. Una captura de pantalla revisada por Bloomberg muestra que las grabaciones enviadas a los auditores de Alexa no brindan el nombre completo ni la dirección del usuario, sino que están asociadas con un número de cuenta, así como el nombre de pila del usuario y el número de serie del dispositivo.

The Intercept informó este año que los empleados de Ring, propiedad de Amazon, identifican manualmente los vehículos y personas en los videos capturados por las activaciones en las cámaras de la compañía, en un intento por capacitar mejor al software para que haga ese trabajo.

“Nadie piensa necesariamente que otro ser humano está escuchando lo que uno le dice a su bocina inteligente en la intimidad de su hogar”, expuso Florian Schaub, profesor de la Universidad de Michigan que ha investigado temas de privacidad relacionados con estos dispositivos. “Creo que nos han condicionado a la [suposición] de que estas máquinas aprenden de forma mágica. Pero la realidad es que todavía hay un procesamiento manual involucrado. Si eso es un problema de privacidad o no”, agregó, “depende de lo cautelosos que sean Amazon y otras compañías en cuanto a la información que han tomado manualmente y cómo la presentan a alguien”, agregó.

Cuando Echo debutó, en 2014, la cilíndrica bocina inteligente de Amazon popularizó rápidamente el uso de software de voz en el hogar. En poco tiempo, Alphabet Inc. lanzó su propia versión, llamada Google Home, seguida por HomePod de Apple Inc. Varias compañías también venden sus propios dispositivos en China. Según una investigación de Canalys, los consumidores compraron 78 millones de bocinas inteligentes el año pasado. Millones más usan software de voz para interactuar con los asistentes digitales de sus teléfonos inteligentes.

El software de Alexa está diseñado para grabar continuamente fragmentos de audio que escuchan palabras de alerta. El término es “Alexa” de forma predeterminada, pero la gente puede cambiarlo a “Echo” o “computadora”. Cuando se detecta una palabra de activación, el anillo de luz en la parte superior del Echo se vuelve azul, un indicador de que el dispositivo está grabando y transmitiendo un comando a los servidores de Amazon.

La mayoría de los sistemas modernos de reconocimiento de voz se basan en redes neuronales modeladas en el cerebro humano. El software aprende sobre la marcha, al detectar patrones en medio de vastas cantidades de datos. Los algoritmos que impulsan a Echo y otros altavoces inteligentes emplean modelos de probabilidad para realizar conjeturas informadas. Si alguien le pregunta a Alexa si hay un ‘lugar griego’ cerca, los algoritmos saben que el usuario probablemente está buscando un restaurante, no una iglesia o un centro comunitario.

Pero a veces Alexa se equivoca, especialmente cuando se enfrenta a una nueva jerga, coloquialismos regionales o idiomas distintos del inglés. En francés, “avec sa” -que significa “con él” o “con ella”- puede confundir al software y hacerlo pensar que alguien está diciendo la palabra de alerta: Alexa. “Hecho”, en español, a veces se interpreta erróneamente como “Echo”, y así sucesivamente. Es por eso que Amazon reclutó ayudantes humanos para llenar los vacíos que los algoritmos no detectaron.

Siri, de Apple, también tiene ayudantes humanos, que trabajan para evaluar si la interpretación de los pedidos por parte del asistente digital se alinea con lo que dijo la persona. Las grabaciones que revisan carecen de información de identificación personal y se almacenan durante seis meses vinculadas a un identificador aleatorio, según un documento de seguridad de Apple. Después de ese plazo, los datos se eliminan de su información de identificación aleatoria, aunque podrían preservarse por períodos más largos para mejorar el reconocimiento de voz de Siri.

En Google, algunos empleados pueden acceder a ciertos fragmentos de audio de su Asistente para ayudar a capacitar y mejorar el producto, pero no están asociados con ninguna información de identificación personal y se escuchan distorsionados, según la compañía.

Una reciente publicación de un puesto de trabajo en Amazon -una búsqueda de un gerente de control de calidad para Alexa Data Services, en Bucarest- describe el papel que juegan los humanos: “Todos los días, ella [Alexa] escucha a miles de personas que le hablan sobre diferentes temas y en diferentes idiomas y necesita nuestra ayuda para darle sentido a todo”. El anuncio continúa: “Este es un manejo de big data (macro datos) como nunca se ha visto. Estamos creando, etiquetando, editando y analizando vastas cantidades de palabras a diario”.

El proceso de revisión de datos de voz de Amazon comienza cuando Alexa extrae una pequeña muestra aleatoria de las grabaciones de los clientes y envía los audios a los empleados y contratistas remotos, según una persona familiarizada con el programa.

Algunos supervisores tienen la tarea de transcribir los comandos de los usuarios, comparar las grabaciones con la transcripción automática o anotar la interacción entre el usuario y la máquina. ¿Qué preguntó la persona? ¿Alexa brindó una respuesta efectiva?

Otros toman nota de todo lo que la bocina escucha, incluidas las conversaciones de fondo, incluso cuando los niños son los que hablan. A veces, los supervisores escuchan a los usuarios discutir detalles privados, como nombres o datos bancarios; en tales casos, se supone que deben marcar un cuadro de diálogo que denote “datos críticos”. Luego pasan al siguiente archivo de audio.

Según el sitio web de Amazon, no se almacena ningún audio a menos que Echo detecte la palabra de alerta, o sea activado al presionar un botón. Pero a veces, Alexa parece comenzar a grabar sin ningún alerta en absoluto y los archivos de audio se generan gracias a una televisión ruidosa o un sonido ininteligible.

Independientemente de si la activación ocurrió por error, los supervisores deben transcribirla. Una de las personas aseguró que cada uno de los auditores transcribe hasta 100 grabaciones por día que ocurrieron aún cuando Alexa no recibió un comando, o se activó por accidente.

De acuerdo con dos de los supervisores, en los hogares de todo el mundo los propietarios de Echo especulan con frecuencia quién podría estar escuchando: “¿Trabajas para la Agencia de Seguridad Nacional?”, preguntan. “Alexa, ¿alguien nos está escuchando?”.

Para leer esta nota en inglés, haga clic aquí

Anuncio