¿Quiere que su robot aprenda una nueva tarea? Envíelo a RoboNet, una vasta base de datos de video que algún día podría enseñarle algo.
Uno de los héroes no reconocidos de la revolución de la Inteligencia Artificial (IA) es una base de datos poco conocida llamada ImageNet. Creada por investigadores de la Universidad de Princeton, ImageNet contiene 14 millones de imágenes, cada una de ellas anotada por un texto de colaboración colectiva que explica lo que muestra la imagen.
ImageNet es importante porque es la base de datos que utilizan muchas de las poderosas redes neuronales en la actualidad. ¿Cómo funciona? Las redes neuronales aprenden mirando las imágenes y el texto que las acompaña, y cuanto más grande es la base de datos, mejor aprenden. Sin ImageNet y otros conjuntos de datos visuales, incluso las redes neuronales más potentes no podrían reconocer nada.
Ahora los robotistas dicen que quieren probar un enfoque similar con video para enseñarle a sus encargados cómo interactuar con el medio ambiente. Sudeep Dasari de la Universidad de California, Berkeley, y sus colegas están creando una base de datos llamada RoboNet, que consiste en datos de video anotados de robots en acción. Por ejemplo, los datos pueden incluir numerosas instancias de un robot que mueve una taza a través de una mesa. La idea es que cualquiera pueda descargar estos datos y usarlos para entrenar la red neuronal de un robot para mover una taza también, incluso si nunca antes ha interactuado con una taza.
Según informa MIT Technology Review, Dasari y compañía esperan que su base de datos pueda entrenar a casi cualquier robot para realizar casi cualquier tarea. Algo así como una especie de universidad de robots llamada RoboNet.
Hasta ahora, los robotistas han tenido un éxito limitado en la enseñanza de sus cargos sobre cómo navegar e interactuar con el medio ambiente. Su enfoque es la técnica estándar de aprendizaje automático que ImageNet ayudó a popularizar.
Comienzan registrando la forma en que un robot interactúa con, por ejemplo, un cepillo para moverlo a través de una superficie. Luego toman muchos más videos de su movimiento y usan los datos para entrenar a una red neuronal sobre la mejor manera de realizar la acción.
El truco es tener muchos datos; en otras palabras, innumerables horas de video para aprender. Una vez que un robot ha dominado el movimiento del cepillo, debe pasar por el mismo procedimiento de aprendizaje para mover otro casi cualquier otra cosa, ya sea una cuchara o un par de anteojos. Si el entorno cambia, estos sistemas de aprendizaje generalmente tienen que comenzar de nuevo.
Hasta hoy, ImageNet ha sido un factor clave para que la visión artificial sea tan buena como los humanos para reconocer objetos. Si RoboNet tiene solo la mitad del éxito, será una ganancia impresionante.