À la fin de 2012, les scientifiques de l’IA ont d’abord compris comment faire «voir» les réseaux de neurones. Ils ont prouvé que les logiciels conçus pour imiter vaguement le cerveau humain pouvaient considérablement améliorer les systèmes de vision par ordinateur existants. Le domaine a depuis appris à faire en sorte que les réseaux de neurones imitent la façon dont nous raisonnons, entendons, parlons et écrivons.
Mais alors que l’IA est devenue remarquablement humaine – même surhumaine – pour accomplir une tâche spécifique, elle ne capture toujours pas la flexibilité du cerveau humain. Nous pouvons acquérir des compétences dans un contexte et les appliquer dans un autre. En revanche, bien que l’algorithme de jeu de DeepMind AlphaGo peut battre les meilleurs maîtres de Go du monde, il ne peut pas étendre cette stratégie au-delà du tableau. En d’autres termes, les algorithmes d’apprentissage en profondeur sont maîtres dans la détection de modèles, mais ils ne peuvent pas comprendre et s’adapter à un monde en mutation.
Les chercheurs ont de nombreuses hypothèses sur la façon dont ce problème pourrait être surmonté, mais une en particulier a gagné du terrain. Les enfants apprennent le monde en le sentant et en en parlant. La combinaison semble clé. À mesure que les enfants commencent à associer des mots à des images, des sons et d’autres informations sensorielles, ils sont capables de décrire des phénomènes et des dynamiques de plus en plus compliqués, de distinguer ce qui est causal de ce qui ne reflète que la corrélation et de construire un modèle sophistiqué du monde. Ce modèle les aide ensuite à naviguer dans des environnements inconnus et à mettre de nouvelles connaissances et expériences en contexte.
Les systèmes d’IA, en revanche, sont conçus pour ne faire qu’une de ces choses à la fois. Les algorithmes de vision par ordinateur et de reconnaissance audio peuvent détecter les choses mais ne peuvent pas utiliser le langage pour les décrire. Un modèle en langage naturel peut manipuler les mots, mais les mots sont détachés de toute réalité sensorielle. Si les sens et le langage étaient combinés pour donner à une IA un moyen plus humain de recueillir et de traiter de nouvelles informations, pourrait-elle enfin développer quelque chose comme une compréhension du monde?
L’espoir est que ces systèmes «multimodaux», avec accès à la fois aux «modes» sensoriels et linguistiques de l’intelligence humaine, devraient donner naissance à une IA plus robuste, capable de s’adapter plus facilement à de nouvelles situations ou problèmes. De tels algorithmes pourraient alors nous aider à résoudre des problèmes plus complexes, ou être portés dans des robots capables de communiquer et de collaborer avec nous dans notre vie quotidienne.
De nouvelles avancées dans les algorithmes de traitement du langage comme GPT-3 d’OpenAI ont aidé. Les chercheurs comprennent maintenant comment reproduire suffisamment bien la manipulation du langage pour rendre sa combinaison avec des capacités de détection plus potentiellement plus fructueuse. Pour commencer, ils utilisent la toute première capacité de détection obtenue sur le terrain: la vision par ordinateur. Les résultats sont de simples modèles bimodaux, ou IA en langage visuel.
Au cours de la dernière année, plusieurs résultats intéressants ont été obtenus dans ce domaine. En septembre, des chercheurs de l’Institut Allen pour l’intelligence artificielle, AI2, ont créé un modèle capable de générer une image à partir d’une légende de texte, démontrant la capacité de l’algorithme à associer des mots à des informations visuelles. En novembre, des chercheurs de l’Université de Caroline du Nord, Chapel Hill, ont mis au point une méthode qui intègre des images dans des modèles de langage existants, ce qui a amélioré la compréhension en lecture des modèles.
OpenAI a ensuite utilisé ces idées pour étendre GPT-3. Début 2021, le laboratoire a publié deux modèles de langage visuel. On relie les objets d’une image aux mots qui les décrivent dans une légende. L’autre génère des images basées sur une combinaison des concepts qu’il a appris. Vous pouvez l’inviter, par exemple, à produire «une peinture d’un capybara assis dans un champ au lever du soleil». Bien qu’il n’ait peut-être jamais vu cela auparavant, il peut mélanger et assortir ce qu’il sait des peintures, des capybaras, des champs et des levers de soleil pour imaginer des dizaines d’exemples.
Obtenir une intelligence plus flexible ne débloquerait pas simplement de nouvelles applications d’IA: cela les rendrait également plus sûres.
Des systèmes multimodaux plus sophistiqués permettront également de assistants robotiques avancés (pensez aux majordomes de robots, pas seulement à Alexa). La génération actuelle de robots alimentés par l’IA utilise principalement des données visuelles pour naviguer et interagir avec leur environnement. C’est bon pour effectuer des tâches simples dans des environnements contraints, comme l’exécution de commandes dans un entrepôt. Mais des laboratoires comme AI2 s’efforcent d’ajouter du langage et d’incorporer davantage d’entrées sensorielles, telles que des données audio et tactiles, afin que les machines puissent comprendre les commandes et effectuer des opérations plus complexes, comme ouvrir une porte lorsque quelqu’un frappe.
À long terme, des percées multimodales pourraient aider à surmonter certaines des plus grandes limites de l’IA. Les experts affirment, par exemple, que son incapacité à comprendre le monde est également la raison pour laquelle il peut facilement échouer ou être trompé. (Une image peut être modifiée d’une manière imperceptible pour les humains, mais permet à une IA de l’identifier comme quelque chose de complètement différent.) Obtenir une intelligence plus flexible ne débloquerait pas simplement de nouvelles applications d’IA: cela les rendrait également plus sûres. Les algorithmes qui examinent les curriculum vitae ne traiteraient pas les caractéristiques non pertinentes comme le sexe et la race comme des signes de capacité. Les voitures autonomes ne perdraient pas leurs repères dans un environnement inconnu et ne s’écraseraient pas dans l’obscurité ou par temps de neige. Les systèmes multimodaux pourraient devenir les premières IA auxquelles nous pouvons vraiment faire confiance.
.
L’article L’IA armée de plusieurs sens pourrait acquérir une intelligence plus flexible est apparu en premier sur zimo news.