TeChron GA

El agente de inteligencia artificial de DeepMind, MuZero, podría impulsar YouTube

El agente de inteligencia artificial de DeepMind, MuZero, podría impulsar YouTube

El último programa de inteligencia artificial de DeepMind puede lograr un «rendimiento sobrehumano» en tareas sin necesidad de que se le den las reglas.

Al igual que los primeros agentes de inteligencia artificial del centro de investigación, MuZero logró el dominio en docenas de viejos videojuegos de Atari, ajedrez y los juegos de mesa asiáticos de Go y Shogi.

Pero a diferencia de sus predecesores, tuvo que elaborar sus reglas por sí mismo.

Ya se está poniendo en práctica para encontrar una nueva forma de codificar videos, lo que podría reducir los costos de YouTube.

«El mundo real es desordenado y complicado, y nadie nos da un libro de reglas sobre cómo funciona», dijo a la BBC el principal científico investigador de DeepMind, David Silver.

«Sin embargo, los seres humanos pueden formular planes y estrategias sobre qué hacer a continuación.

«Por primera vez, tenemos un sistema que es capaz de construir su propia comprensión de cómo funciona el mundo y utilizar esa comprensión para realizar este tipo de planificación avanzada y sofisticada que ha visto anteriormente en juegos como el ajedrez.

«[Puede] empezar de cero, y sólo mediante prueba y error, ambos descubren las reglas del mundo y usan esas reglas para lograr una especie de actuación sobrehumana».

David Silver
captura de imagenEl Dr. Silver dice que MuZero nos acerca a tener agentes de inteligencia artificial que puedan hacer frente al desorden del mundo real

Wendy Hall, profesora de informática en la Universidad de Southampton y miembro del consejo de inteligencia artificial del gobierno, dijo que el trabajo marcó un «importante paso adelante», pero generó preocupaciones.

«Los resultados del trabajo de DeepMind son bastante asombrosos y me maravilla lo que podrán lograr en el futuro dados los recursos que tienen a su disposición», dijo.

«Mi preocupación es que mientras se esfuerzan constantemente por mejorar el rendimiento de sus algoritmos y aplicar los resultados en beneficio de la sociedad, los equipos de DeepMind no están poniendo tanto esfuerzo en pensar en las posibles consecuencias no deseadas de su trabajo.

«Dudo que los inventores del motor a reacción estuvieran pensando en la contaminación global cuando estaban trabajando en sus inventos. Debemos lograr ese equilibrio en el desarrollo de la tecnología de inteligencia artificial».

Compresión de video

DeepMind, con sede en Londres, publicó por primera vez detalles de MuZero en 2019 , pero esperó hasta la publicación de un artículo en la revista Nature para discutirlo.

Representa el último éxito de la empresa en el aprendizaje por refuerzo profundo, una técnica que utiliza redes neuronales de muchas capas para permitir que las máquinas se enseñen a sí mismas nuevas habilidades a través de un proceso de prueba y error, recibiendo «recompensas» por el éxito en lugar de que se les diga qué hacer.

MuZero sigue los pasos de:

  • un programa conocido como DQN , que logró una competencia superior a los humanos en los videojuegos de Atari utilizando solo píxeles y puntajes de juego como entrada
  • AlphaGo, el programa que superó al maestro de Go Lee-Sedol 4-1 en una competición pionera en 2016 , después de haber sido entrenado en partidos pasados
  • AlphaGo Zero, que superó a AlphaGo en rendimiento al año siguiente después de entrenarse desde cero y solo se le proporcionaron las reglas básicas del juego.
  • AlphaZero, que en 2017 generalizó AlphaGo Zero para que se pudiera aplicar a otros juegos, incluidos el ajedrez y el Shogi.

Más recientemente, DeepMind, que es propiedad del mismo padre que Google, hizo un gran avance en el plegamiento de proteínas al adaptar estas técnicas, lo que podría allanar el camino hacia nuevos medicamentos para combatir enfermedades.

Gráfico de DeepMind

MuZero pronto podría ponerse en práctica también.

El Dr. Silver dijo que DeepMind ya lo estaba usando para intentar inventar un nuevo tipo de compresión de video.

«Si observa el tráfico de datos en Internet, la mayor parte es video, por lo que si puede comprimir el video de manera más efectiva, puede hacer ahorros masivos», explicó.

«Y los experimentos iniciales con MuZero muestran que en realidad se pueden obtener ganancias bastante significativas, lo cual nos entusiasma bastante».

Se negó a hablar sobre cuándo o cómo Google podría usar esto más allá de decir que se darán a conocer más detalles en el nuevo año.

Sin embargo, como Google posee la plataforma de intercambio de videos más grande del mundo, YouTube, tiene el potencial de ahorrar mucho dinero.

Exprimir datos

DeepMind no es el primero en intentar crear un agente que modele la dinámica del entorno en el que se encuentra y lleve a cabo búsquedas de árbol, decidiendo cómo proceder mirando varios pasos hacia adelante para determinar el mejor resultado.

Sin embargo, los intentos anteriores han tenido problemas para lidiar con la complejidad de los desafíos «visualmente ricos», como los que plantean los videojuegos antiguos como Ms Pac-Man.

Sra. Pac-Man
captura de imagenMuZero recibió los píxeles del juego Ms Pac-Man pero no sus reglas.

La firma cree que ha tenido éxito porque MuZero solo intenta modelar aspectos del entorno que son importantes para su proceso de toma de decisiones, en lugar de adoptar un enfoque más amplio.

«Es más útil saber que un paraguas te mantendrá seco que modelar el patrón de las gotas de lluvia en el aire», explica en un blog.

El artículo de Nature informa que MuZero demostró ser un poco mejor que AlphaZero al jugar Go, a pesar de hacer menos cálculos de búsqueda de árboles por movimiento.

Y dijo que también superó a R2D2, el algoritmo líder de juego de Atari que no modela el mundo, en 42 de los 57 juegos probados en la vieja consola. Además, lo hizo después de completar solo la mitad de los pasos de entrenamiento.

Ambos logros apuntan al hecho de que MuZero es efectivamente capaz de extraer más información de menos datos de lo que había sido posible antes, explicó el Dr. Silver.

«Imagina que tienes un robot y está deambulando por el mundo real y es caro de ejecutar», dijo.

«Así que quieres que aprenda todo lo posible de la pequeña cantidad de experiencias que tiene. MuZero puede hacer eso».

Añadió que otros usos potenciales incluyen asistentes virtuales de próxima generación, medicina personalizada y tecnologías de búsqueda y rescate.

Related Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Me encantaria recibir notificaciones    OK No gracias