Cómo simular una demostración de robótica para diversión y beneficio

En marzo de 2008, un robotista vestido de invierno le dio una gran patada a Big Dog para la cámara. El robot financiado por DARPA se tambaleó, pero rápidamente recuperó el equilibrio en el estacionamiento nevado. «POR FAVOR, NO PATEE AL PROTOTIPO ANDANTE DE MUERTE», ruega el comentario superior del video. «SE ACORDARÁ».

«Qué espeluznante», anota otro. «Imagina si un día estuvieras dando un paseo por el bosque y vieras esa cosa acercándose hacia ti». Blogs de aparatos y cuentas de redes sociales hicieron circular palabras como «aterrador» y «robopocalipsis», en esos días antes de que Black Mirror diera al mundo una forma aún más directa de referirse a ello. Boston Dynamics tuvo un éxito. El video tiene actualmente 17 millones de visitas. Fue el primero de innumerables éxitos virales que continúan hasta el día de hoy.

Es difícil subestimar el papel que han desempeñado estas virales en el desarrollo posterior de Boston Dynamics como una de las empresas de robótica más identificables al instante en el mundo. Big Dog y sus descendientes como Spot y Atlas han sido celebrados, demonizados, parodiados e incluso han aparecido en un anuncio de cerveza Sam Adams. Junto con el desarrollo de algunas de las mecatrónicas más avanzadas del mundo, el equipo de Boston Dynamics ha demostrado ser extremadamente hábil en el marketing.

Hay mucho que decir sobre el papel que estos videos han jugado en la difusión del evangelio de la robótica.

Parece probable que videos como este hayan inspirado las carreras de innumerables robotistas que actualmente prosperan en el campo. Es un modelo que innumerables startups posteriores han adoptado con una amplia gama de éxitos. Boston Dynamics ciertamente no puede ser responsable de ninguna de esas compañías que podrían haber tomado algunas atajos en el camino.

En las últimas décadas, los videos de robots virales han pasado de ser objetos de curiosidad entre la tecnoélite a éxitos que acaparan titulares filtrados a través de TikTok y YouTube. A medida que los posibles beneficios han aumentado, también lo ha hecho el deseo de suavizar los bordes. Complicando aún más las cosas está el estado de la CGI, que se ha vuelto indistinguible de la realidad para muchos espectadores. El sesgo de confirmación, la atracción por la novedad y la falta de conocimientos técnicos juegan un papel clave en nuestra tendencia a creer noticias y videos falsos.

Puedes perdonar al espectador promedio de TikTok, por ejemplo, por no entender las intrincaciones de la generalización. Muchos robotistas han -quizás sin querer- avivado el fuego al insinuar que los sistemas que vemos en los videos son «de propósito general». Tal vez multipropósito, pero todavía estamos lejos de tener robots que puedan realizar cualquier tarea no limitada por restricciones de hardware.

La mayoría de las veces, los videos que ves son el producto de meses o años de trabajo. En algún lugar en un disco duro se encuentran las horas de video que no llegaron al corte final, con un robot tropezando, sputtering o deteniéndose. Por eso he alentado a las empresas a compartir algunos de estos videos con la audiencia de TechCrunch. Quizás no sorprendentemente, pocos me han aceptado la oferta. Sospecho que gran parte de esto se debe a cómo las personas perciben esa información. Entre los robotistas, las horas y días de ensayo y error son una indicación de lo mucho que has trabajado para llegar al producto final. Entre el público en general, sin embargo, tales fallas de robot pueden ser percibidas como un fracaso por parte de los propios robotistas.

Hablando de un número de 2023 en Actuator (RIP), elogié a Boston Dynamics por la «bobina de errores» que publicaron, mostrando a Atlas perdiendo el equilibrio y cayendo entre exitosos movimientos de parkour. Como de costumbre, mucho más terminó en la sala de edición que lo que llegó al corte final. Incluso cuando no se trata de robots, así es como van las cosas.

Hace unas semanas, asistí a una charla del director Kelly Reichardt después de una proyección de su maravillosa película «Showing Up» (nueva). Ella reiteró el viejo refrán de W.C. Fields sobre no trabajar con niños o animales. En la mayoría de los casos, probablemente agregaría la mecatrónica avanzada a esa lista.

Junto con los CG/renderizados, la edición creativa es solo una de las muchas formas potenciales de mejorar una demostración de robótica. La mayoría de las veces, la intención no es maliciosa. Un sentimiento que los músicos comparten conmigo en mi podcast es que una vez que una canción se libera al mundo, ya no tienes control sobre ella. Hasta cierto punto, creo que lo mismo puede ser cierto con un video. Se toman decisiones para apretar las cosas y mejorar la presentación. Estos son una parte esencial para hacer videos en línea. Especialmente en la era de TikTok, sin embargo, el contexto es la primera víctima.

No existe un libro de reglas sobre qué información se necesita incluir en una demostración de robótica. Cuanto más pienso en ello, sin embargo, más creo que debería haber, al menos, algunas pautas bien definidas. No soy un robotista. Solo soy un geek con una licenciatura en escritura creativa. Sin embargo, hablo regularmente con personas mucho más inteligentes que yo sobre el tema.

Justo antes del CES, una publicación de LinkedIn llamó mi atención (al parecer, también llamó la atención de gran parte de la comunidad de robótica). Fue escrito por Brad Porter, el fundador y CEO de Collaborative Robotics que anteriormente encabezó los esfuerzos en robótica industrial de Amazon. Rara vez recomiendo seguir a alguien en LinkedIn, pero si te interesa el espacio, es una buena opción.

En la pieza, Porter señala que es probable que el CES esté repleto de demostraciones geniales de robótica (así fue), pero agrega: «también hay muchos videos sorprendentes de trucos por ahí. Separar la realidad de la escenificación es difícil». El ejecutivo no estaba insinuando ninguno de los aspectos negativos que una palabra como «escenificación» podría tener en este contexto. En cambio, simplemente sugería que los espectadores aborden tales videos con un ojo discernidor y, quizás, escéptico.

He estado cubriendo este espacio durante varios años y he desarrollado algunas habilidades para detectar el «kayfabe» robótico. Pero a menudo me apoyo en expertos en el campo como Porter cuando una demostración se siente rara. Por supuesto, no todos los espectadores tienen mi experiencia o acceso a estas personas. Sin embargo, pueden equiparse con el conocimiento de cómo se mejoran estos videos, maliciosamente o de otra manera.

Porter identifica cinco puntos diferentes. El primero es «stop-motion». Esto se refiere a una sucesión de ediciones rápidas que hacen que parezca que el robot se está moviendo de formas que es incapaz de hacer en la vida real.

«Si ves un video de robótica con muchos saltos de fotogramas o cortes de cámara, sé cauto», escribe. «Notarás que los videos de Boston Dynamics suelen ser un solo corte sin cortes de cámara, eso es impresionante».

El segundo es la simulación. Esto es, en la práctica, el ejemplo de CG que mencioné anteriormente. La simulación se ha convertido en una herramienta fundamental en la implementación de robots. Le permite a las personas ejecutar miles de escenarios simultáneamente en segundos. Junto con otros gráficos por computadora, la simulación robótica se ha vuelto cada vez más fotorrealista en los últimos años. Crear y compartir una simulación realista no es un problema en sí mismo. El problema surge cuando se pasan estas cosas como realidad.

El tercer problema tiene un nombre divertido. Las demostraciones de «mago de Oz» se llaman así debido a que el “trabajo pesado” lo realiza la [persona] detrás de la cortina (no presten atención). Porter cita la demostración del Mobile ALOHA de Stanford como ejemplo. Creo firmemente que no hubo maldad en la decisión de ejecutar la demostración (aún extremadamente impresionante) a través de teleoperación fuera de pantalla. De hecho, el «operador de robot», Tony Zhao, aparece tanto en el video como en los créditos finales.

Desafortunadamente, la apariencia ocurre dos minutos y medio en una demostración de tres minutos y medio. En estos días, sin embargo, tenemos que asumir que:

Nadie realmente tiene la capacidad de atención para ver dos minutos y medio de imágenes de robots increíbles.

Esto va a ser recortado y despojado de todo contexto.

El espectador promedio de TikTok (Twitter) no va a buscar la fuente del video.

Para otro ejemplo que llegó poco después de la publicación de Porter, echen un vistazo al video de Elon Musk de X del robot humanoide Optimus doblando la ropa. El video se publicó con el texto «Optimus dobla una camisa». Los espectadores detectaron algo interesante en la esquina inferior derecha: una mano en guante que ocasionalmente aparecía parcialmente en la pantalla y coincidía con el movimiento del robot.

«Si hubieran enmarcado el video de Optimus doblando la ropa solo unos cuantos centímetros a la izquierda, te habrías perdido lo que parece ser una mano de teleoperación controlando Tesla Bot», mencioné en ese momento. «No hay nada malo con la teleoperación, por supuesto. Tiene algunas excelentes aplicaciones, incluyendo entrenamiento, solución de problemas y ejecución de tareas altamente especializadas como la cirugía. Pero es bueno saber lo que estamos (y no estamos) viendo. Esto me parece un caso evidente de omisión de información, con la comprensión de que sus audiencias/fans llenarán los vacíos con lo que creen que están viendo basado en sus sentimientos sobre el emisor”.

Podría ser erróneo acusar a Musk de ocultar intencionalmente la verdad aquí. Veintitrés minutos después del tweet inicial, agregó: «Nota importante: Optimus aún no puede hacer esto de forma autónoma, pero ciertamente podrá hacerlo completamente de forma autónoma y en un entorno arbitraria (que no requerirá una mesa fija con una caja que solo tenga una camisa)».

Como no-Mark Twain notó famosamente, «una mentira puede viajar la mitad del mundo mientras que la verdad todavía está poniéndose los zapatos». Un principio similar se puede aplicar a los videos en línea. El tuit inicial no es exactamente una mentira, por supuesto, pero ciertamente se puede clasificar como una omisión. Es el viejo truco del periódico de ocultar tus correcciones en la página A12. Muchas más personas estarán expuestas al error inicial.

Nuevamente, no estoy aquí para decirte si esa omisión inicial fue intencional (si decides aplicar el beneficio de la duda aquí, definitivamente puedes ver el tweet de seguimiento como una aclaración genuina de un contexto incompleto). En este caso específico, sospecho que la mayoría de las opiniones sobre el asunto estarán directamente correlacionadas con los sentimientos personales sobre su autor.

El siguiente ejemplo de Porter es «Aprendizaje por refuerzo de tarea única». Puedes profundizar más en el aprendizaje por refuerzo aquí, pero por el bien de la brevedad en un artículo que no es para nada breve, digamos simplemente que es una forma de enseñar a los robots a realizar tareas con repetidos ensayos y errores del mundo real.

«Abrir una puerta, apilar un bloque, girar una manivela», escribe Porter. «Aprender estas tareas es impresionante y parece impresionante y lo es. Pero un buen ingeniero de aprendizaje por refuerzo puede hacer que esto funcione en un par de meses. Un paso más difícil es hacerlo robusto a diferentes variaciones sutiles, pero generalizar a múltiples tareas similares es muy difícil. Para poder decir si puede generalizar, busca múltiples tareas entrenadas».

Al igual que la teleoperación, no hay absolutamente nada malo con el aprendizaje por refuerzo. Estas son herramientas invaluables para entrenar y operar robots. Solo necesitas divulgarlas lo más claramente posible.

El último consejo de Porter es monitorear el entorno y posibles omisiones. Cita el entonces reciente video del humanoide de Figure haciendo café. «Fluido, un solo corte, muestra robustez a los modos de falla», escribe. «Todavía es solo una tarea, por lo que las afirmaciones del momento ChatGPT de los robots no están en evidencia aquí. La calidad de producción es excelente. Pero notarán que el robot no levanta nada más pesado que una taza Keurig. Levantar tazas se ha hecho, pero no lo muestran. ¿Tal vez el robot no tiene esa fuerza?»

Cuando hablé con Porter sobre las complejidades de la publicación hoy, una vez más señaló que estas observaciones no restan mérito a lo que es una tecnología genuinamente impresionante. El problema, sin embargo, es que nuestros cerebros tienen la tendencia a llenar los huecos. Antropomorfizamos o humanizamos a los robots y asumimos que aprenden como lo hacemos nosotros, cuando en realidad ver a un robot abrir una puerta no garantiza que pueda abrir otra, o incluso la misma puerta bajo una iluminación diferente. Las TVs y las películas también nos han dado expectativas poco realistas de lo que los robots pueden -y no pueden- hacer en 2024.

Un último punto que no se incluyó en la publicación es la velocidad. La tecnología puede ser dolorosamente lenta a veces, por lo que es común acelerar las cosas. En su mayor parte, universidades y otras instalaciones de investigación hacen un buen trabajo al notar esto a través de un superpuesto de texto. Esta es la manera de hacerlo. Agrega la información pertinente en la pantalla de una manera que sea difícil para un influencer hambriento de clics recortarla. De hecho, este fenómeno es cómo 1X obtuvo su nombre.

Un video reciente de la empresa mostrando su uso de redes neuronales llama la atención sobre este hecho. «Este video no contiene teleoperación, gráficos por computadora, cortes, aceleración de video, reproducción de trayectorias escritas», explica la compañía. «Todo está controlado a través de redes neuronales». El resultado es un video de tres minutos que puede sentirse casi dolorosamente lento en comparación con otras demostraciones humanoides.

Al igual que los videos de errores, aplaudo esto -y cualquier- forma de transparencia. Para robots que se mueven verdaderamente lentamente, no hay nada malo con acelerar las cosas, siempre y cuando sigas tres reglas importantes:

Divulgar

Al igual que el compositor, las empresas deben reconocer que no pueden controlar lo que sucede con un video una vez que pertenece al mundo. Pero pregúntate: ¿Hice todo lo que estaba en mi poder para frenar la difusión de posibles falsedades?

Probablemente sea demasiado esperar que tales videos estén regidos por la misma legislación de verdad en publicidad que gobierna la publicidad televisiva. Sin embargo, me encantaría ver a un grupo de robotistas unir fuerzas para estandarizar cómo pueden -y deben- funcionar tales divulgaciones.

Noticias Relacionadas

La UE confirma la multa de 2.420 millones de euros a Google por abuso de posición dominante

El Extraño Portátil que Finalmente tomó en serio la idea de PCs con IA

Microsoft Considera Cambiar de CPUs AMD a Intel para el Xbox de Próxima Generación