Un virtuel bras de robot a appris à résoudre un large éventail de puzzles différents– empiler des blocs, mettre la table, disposer les pièces d’échecs – sans avoir à se recycler pour chaque tâche. Il l’a fait en jouant contre un deuxième bras de robot qui a été formé pour lui donner des défis de plus en plus difficiles.
Jeu autonome: Développés par des chercheurs d’OpenAI, les bras de robot identiques – Alice et Bob – apprennent en jouant à un jeu l’un contre l’autre dans une simulation, sans intervention humaine. Les robots utilisent l’apprentissage par renforcement, une technique dans laquelle les IA sont entraînées par essais et erreurs sur les actions à entreprendre dans différentes situations pour atteindre certains objectifs. Le jeu consiste à déplacer des objets sur une table virtuelle. En organisant les objets de manière spécifique, Alice essaie de créer des énigmes difficiles à résoudre pour Bob. Bob essaie de résoudre les énigmes d’Alice. Au fur et à mesure qu’ils apprennent, Alice pose des énigmes plus complexes et Bob s’améliore pour les résoudre.
Multitâche: Les modèles d’apprentissage en profondeur doivent généralement être recyclés entre les tâches. Par exemple, AlphaZero (qui apprend également en jouant contre lui-même) utilise un seul algorithme pour apprendre à jouer aux échecs, au shogi et au go, mais une seule partie à la fois. L’AlphaZero qui joue aux échecs ne peut pas jouer au Go et celui qui joue au Go ne peut pas jouer au shogi. Construire des machines qui peuvent vraiment effectuer plusieurs tâches à la fois est un gros problème non résolu sur la route vers une IA plus générale.
Dojo AI: L’un des problèmes est que la formation d’une IA au multitâche nécessite un grand nombre d’exemples. OpenAI évite cela en entraînant Alice à générer les exemples pour Bob, en utilisant une IA pour en entraîner une autre. Alice a appris à se fixer des objectifs tels que la construction d’une tour de blocs, puis la ramasser et l’équilibrer. Bob a appris à utiliser les propriétés de l’environnement (virtuel), comme le frottement, pour saisir et faire pivoter des objets.
Réalité virtuelle: Jusqu’à présent, l’approche n’a été testée que dans une simulation, mais les chercheurs d’OpenAI et d’ailleurs s’améliorent pour transférer des modèles formés dans des environnements virtuels vers des environnements physiques. Une simulation permet aux IA de parcourir de grands ensembles de données en un court laps de temps, avant d’être affinées pour les paramètres du monde réel.
Ambition générale: Les chercheurs disent que leur objectif ultime est de former un robot à résoudre toute tâche qu’une personne pourrait lui demander. Comme GPT-3, un modèle de langage qui peut utiliser le langage de différentes manières, ces bras de robot font partie de l’ambition globale d’OpenAI de construire une IA multitâche. Utiliser une IA pour en former une autre pourrait en être un élément clé.
L’article Ces bras de robot virtuels deviennent plus intelligents en s’entraînant les uns les autres est apparu en premier sur zimo news.