Mantenerse al día en una industria tan dinámica como la inteligencia artificial es un gran desafío. Hasta que una IA pueda hacerlo por ti, aquí tienes un resumen práctico de las historias recientes en el mundo del aprendizaje automático, junto con investigaciones y experimentos notables que no cubrimos por separado.
Esta semana en IA, el ciclo de noticias finalmente (¡finalmente!) se calmó un poco antes de la temporada de vacaciones. Pero eso no significa que haya escasez de material sobre lo que escribir, una bendición y una maldición para este reportero privado de sueño.
Un titular en particular de la AP llamó mi atención esta mañana: «Los generadores de imágenes basados en IA están siendo entrenados con fotos explícitas de niños». La esencia de la historia es que LAION, un conjunto de datos utilizado para entrenar muchos generadores de imágenes de IA de código abierto y comerciales populares, incluidos Stable Diffusion e Imagen, contiene miles de imágenes de presunto abuso sexual infantil. Un grupo de vigilancia con sede en Stanford, el Observatorio de Internet de Stanford, trabajó con organizaciones benéficas contra el abuso para identificar el material ilegal y reportar los enlaces a las fuerzas del orden. Ahora, LAION, una organización sin fines de lucro, ha retirado sus datos de entrenamiento y se ha comprometido a eliminar los materiales ofensivos antes de volver a publicarlos. Sin embargo, el incidente sirve para subrayar lo poco que se está pensando en los productos de IA generativa a medida que aumentan las presiones competitivas.
Gracias a la proliferación de herramientas de creación de modelos de IA sin código, se está volviendo espantosamente fácil entrenar a la IA generativa en cualquier conjunto de datos imaginable. Eso es una ventaja tanto para las startups como para los gigantes tecnológicos para sacar esos modelos al mercado. Sin embargo, con la menor barrera de entrada, viene la tentación de dejar de lado la ética en favor de un camino acelerado al mercado.
La ética es difícil, no hay negarlo. Examinar las miles de imágenes problemáticas en LAION, tomando el ejemplo de esta semana, no sucederá de la noche a la mañana. E idealmente, desarrollar IA éticamente implica trabajar con todas las partes interesadas relevantes, incluidas las organizaciones que representan a grupos a menudo marginados y afectados negativamente por los sistemas de IA.
La industria está llena de ejemplos de decisiones de lanzamiento de IA tomadas en consideración de los accionistas, no de los éticos. Tome, por ejemplo, Bing Chat (ahora Microsoft Copilot), el chatbot con IA de Microsoft en Bing, que en su lanzamiento comparó a un periodista con Hitler e insultó su apariencia. Informes recientes también mostraban que ChatGPT y Bard, el competidor de ChatGPT de Google, todavía ofrecían consejos médicos racistas desactualizados. Y la última versión del generador de imágenes de OpenAI, DALL-E, mostraba evidencia de anglocentrismo.
Suficiente para decir que se están causando daños en la búsqueda de la superioridad de la IA, o al menos de la noción de superioridad de la IA de Wall Street. Quizás con la aprobación de las regulaciones de IA de la UE, que amenazan con multas por las infracciones a ciertas protecciones de la IA, haya alguna esperanza en el horizonte. Pero el camino por delante es realmente largo.
Aquí hay algunas otras historias de IA de los últimos días:
– Predicciones para IA en 2024: Devin presenta sus predicciones para la IA en 2024, tocando cómo la IA podría impactar las elecciones primarias de EE. UU. y qué sigue para OpenAI, entre otros temas.
– Contra pseudantropía: Devin también escribió sugiriendo que la IA prohibiera imitar el comportamiento humano.
– Microsoft Copilot obtiene creación de música: Copilot, el chatbot con IA de Microsoft, ahora puede componer canciones gracias a una integración con la aplicación de música GenAI Suno.
– Reconocimiento facial en Rite Aid: Rite Aid ha sido prohibido de usar tecnología de reconocimiento facial durante cinco años después de que la Comisión Federal de Comercio encontrara que el gigante de las farmacias de EE. UU. había dejado a sus clientes humillados y había puesto su información sensible en riesgo debido a su «uso imprudente de sistemas de vigilancia facial».
– La UE ofrece recursos informáticos: La UE está ampliando su plan, originalmente anunciado en septiembre y puesto en marcha el mes pasado, para apoyar a las nuevas empresas de IA autóctonas proporcionándoles acceso a la potencia de procesamiento para el entrenamiento de modelos en las supercomputadoras del bloque.
– OpenAI otorga nuevos poderes a su consejo: OpenAI está expandiendo sus procesos internos de seguridad para defenderse de la amenaza de la IA dañina. Un nuevo «grupo asesor de seguridad» se sentará por encima de los equipos técnicos y hará recomendaciones a la dirección, y se le ha otorgado poder de veto al consejo.
– P&B con Ken Goldberg de UC Berkeley: para su boletín regular Actuador, Brian se sentó con Ken Goldberg, profesor de UC Berkeley, fundador de una startup y destacado robótico, para hablar de robots humanoides y tendencias más amplias de la industria de la robótica.
– Los CIOs avanzan con cautela con la IA generativa: Ron escribe que, aunque los CIOs están bajo presión para ofrecer el tipo de experiencias que las personas ven cuando juegan con ChatGPT en línea, la mayoría adopta un enfoque deliberado y cauteloso para la adopción de la tecnología empresarial.
– Editores de noticias demandan a Google por la IA: una demanda colectiva presentada por varios editores de noticias acusa a Google de «sacar» contenido noticioso a través de medios anticompetitivos, en parte a través de tecnologías de IA como la Experiencia Generativa de Búsqueda de Google (SGE) y el chatbot Bard.
– OpenAI firma un acuerdo con Axel Springer: hablando de editores, OpenAI firmó un acuerdo con Axel Springer, el propietario con sede en Berlín de publicaciones como Business Insider y Politico, para entrenar sus modelos de IA generativa en el contenido del editor y agregar artículos recientes publicados por Axel Springer a ChatGPT.
– Google lleva a Gemini a más lugares: Google integró sus modelos de Gemini con más de sus productos y servicios, incluida su plataforma de desarrollo de IA administrada Vertex AI y AI Studio, la herramienta de la compañía para crear experiencias basadas en chatbots y otras tecnologías de IA.
Más aprendizaje automático
Ciertamente, la investigación más salvaje (y más fácil de malinterpretar) de la última semana o dos tiene que ser life2vec, un estudio danés que utiliza innumerables datos en la vida de una persona para predecir cómo es una persona y cuándo morirá. ¡Aproximadamente!
La investigación no está reclamando una precisión oracular, sino que pretende mostrar que si nuestras vidas son la suma de nuestras experiencias, esos caminos pueden ser extrapolados en cierta medida utilizando técnicas actuales de aprendizaje automático. Entre la crianza, la educación, el trabajo, la salud, los pasatiempos y otras métricas, se puede predecir razonablemente no solo si alguien es, digamos, introvertido o extrovertido, sino cómo estos factores pueden afectar la esperanza de vida. Todavía no estamos en niveles de «precrimen» aquí, pero puedes apostar a que las compañías de seguros no pueden esperar para licenciar este trabajo.
Otra gran afirmación fue hecha por científicos de CMU que crearon un sistema llamado Coscientist, un asistente basado en LLM para investigadores que puede hacer mucha de la pesadez del laboratorio de forma autónoma. Actualmente está limitado a ciertos dominios de la química, pero al igual que los científicos, estos modelos serán especialistas.
El investigador principal Gabe Gomes le dijo a Nature: «El momento en que vi cómo una inteligencia no orgánica podía planificar, diseñar y ejecutar de manera autónoma una reacción química inventada por humanos, eso fue sorprendente. Fue un momento de ‘vaya’. Básicamente, utiliza un LLM como GPT-4, ajustado en documentos de química, para identificar reacciones, reactivos y procedimientos comunes y llevarlos a cabo. Así que no necesitas decirle a un técnico de laboratorio que sintetice 4 lotes de algún catalizador. La IA puede hacerlo, y ni siquiera necesitas sujetar su mano.
Los investigadores de IA de Google también han tenido una gran semana, adentrándose en algunos dominios fronterizos interesantes. FunSearch puede sonar como Google para niños, pero en realidad es una abreviatura de búsqueda de funciones, que al igual que Coscientist es capaz de hacer y ayudar a hacer descubrimientos matemáticos. Lo interesante, para prevenir alucinaciones, este (como otros recientes) utilizan un par coincidente de modelos de IA muy similar a la arquitectura «antigua» GAN. Uno teoriza, el otro evalúa. Aunque FunSearch no va a hacer descubrimientos revolucionarios, puede tomar lo que existe y perfeccionarlo o volver a aplicarlo en nuevos lugares, por lo que una función que un dominio usa pero otro desconoce podría usarse para mejorar un algoritmo estándar de la industria.
StyleDrop es una herramienta útil para las personas que buscan replicar ciertos estilos a través de imágenes generativas. El problema (como lo ven los investigadores) es que si tienes un estilo en mente (digamos «pasteles») y lo describes, el modelo tendrá demasiados subestilos de «pasteles» para elegir, por lo que los resultados serán impredecibles. StyleDrop te permite proporcionar un ejemplo del estilo que tienes en mente, y el modelo basará su trabajo en eso; es básicamente un ajuste eficiente súper eficiente.
La publicación en el blog y el papel muestran que es bastante robusto, aplicando un estilo de cualquier imagen, ya sea una foto, una pintura, un paisaje urbano o un retrato de gato, a cualquier otro tipo de imagen, incluso el alfabeto (notoriamente difícil por alguna razón).
Google también está avanzando en el juego de video generativo con VideoPoet, que utiliza una base de LLM (como todo lo demás en estos días… ¿para qué más lo vas a usar?) para realizar una serie de tareas de video, convirtiendo texto o imágenes en video, extendiendo o estilizando video existente, y así sucesivamente. El desafío aquí, como deja claro cada proyecto, no es simplemente hacer una serie de imágenes que se relacionen entre sí, sino hacerlas coherentes durante períodos más largos (más de un segundo) y con movimientos y cambios grandes.
VideoPoet lleva la pelota hacia adelante, parece, aunque, como puedes ver, los resultados siguen siendo bastante extraños. Pero así es como progresan estas cosas: primero son inadecuadas, luego son extrañas, luego son inquietantes. Supongo que dejan de ser inquietantes en algún momento, pero nadie ha llegado realmente allí todavía.
En el lado práctico de las cosas, los investigadores suizos han estado aplicando modelos de IA a la medición de la nieve. Normalmente, uno confiaría en las estaciones meteorológicas, pero estas pueden estar lejos y tenemos todos estos hermosos datos satelitales, ¿verdad? Correcto. Entonces, el equipo de ETHZ tomó imágenes satelitales públicas de la constelación Sentinel-2, pero, como dice el líder Konrad Schindler, «solo mirar las partes blancas en las imágenes satelitales no nos dice inmediatamente cuánta nieve hay». Entonces, ingresaron datos topográficos de todo el país desde su Oficina Federal de Topografía (como nuestro USGS) y entrenaron el sistema a estimar no solo basado en las partes blancas en las imágenes, sino también en datos de verdad en el terreno y tendencias como patrones de fusión. La tecnología resultante está siendo comercializada por ExoLabs, a la que estoy a punto de contactar para obtener más información.
Sin embargo, una palabra de precaución de Stanford: tan poderosas como son aplicaciones como las anteriores, tenga en cuenta que ninguna de ellas involucra mucho en términos de sesgo humano. Cuando se trata de la salud, eso se convierte repentinamente en un gran problema, y la salud es donde se están probando un montón de herramientas de IA. Los investigadores de Stanford mostraron que los modelos de IA propagan «viejos tópicos médicos raciales». GPT-4 no sabe si algo es verdad o no, por lo que puede y parroted viejas afirmaciones, como que los negros tienen menos capacidad pulmonar. ¡Nope! Mantente en alerta si estás trabajando con algún tipo de modelo de IA en salud y medicina.
Por último, aquí hay una pequeña historia escrita por Bard con un guion y prompetos, representada por VideoPoet. ¡Cuidado, Pixar!