France World

DeepMind affirme que son nouveau modèle de langage peut battre les autres 25 fois sa taille

Appelée RETRO (pour « Retrieval-Enhanced Transformer »), l’IA correspond aux performances des réseaux de neurones 25 fois sa taille, réduisant le temps et les coûts nécessaires pour former de très grands modèles. Les chercheurs affirment également que la base de données facilite l’analyse de ce que l’IA a appris, ce qui pourrait aider à filtrer les biais et le langage toxique.

« Être capable de rechercher des choses à la volée au lieu d’avoir à tout mémoriser peut souvent être utile, de la même manière que pour les humains », explique Jack Rae de DeepMind, qui dirige les recherches de l’entreprise sur les grands modèles de langage.

Les modèles linguistiques génèrent du texte en prédisant les mots qui viennent ensuite dans une phrase ou une conversation. Plus un modèle est grand, plus il peut apprendre d’informations sur le monde pendant l’entraînement, ce qui améliore ses prédictions. GPT-3 possède 175 milliards de paramètres, les valeurs d’un réseau de neurones qui stockent les données et s’ajustent au fur et à mesure que le modèle apprend. Le modèle de langage de Microsoft Megatron a 530 milliards de paramètres. Mais les grands modèles nécessitent également de grandes quantités de puissance de calcul pour s’entraîner, les mettant hors de portée de toutes les organisations, sauf les plus riches.

Avec RETRO, DeepMind a essayé de réduire le coût de la formation sans réduire la quantité d’apprentissage de l’IA. Les chercheurs ont formé le modèle sur un vaste ensemble de données d’articles de presse, de pages Wikipédia, de livres et de textes de GitHub, un référentiel de code en ligne. L’ensemble de données contient du texte en 10 langues, dont l’anglais, l’espagnol, l’allemand, le français, le russe, le chinois, le swahili et l’urdu.

Le réseau de neurones de RETRO n’a que 7 milliards de paramètres. Mais le système compense cela avec une base de données contenant environ 2 000 milliards de passages de texte. La base de données et le réseau de neurones sont entraînés en même temps.

Lorsque RETRO génère du texte, il utilise la base de données pour rechercher et comparer des passages similaires à celui qu’il écrit, ce qui rend ses prédictions plus précises. L’externalisation d’une partie de la mémoire du réseau neuronal vers la base de données permet à RETRO de faire plus avec moins.

L’idée n’est pas nouvelle, mais c’est la première fois qu’un système de recherche est développé pour un grand modèle de langage, et la première fois que les résultats de cette approche rivalisent avec les performances des meilleures IA de langage.

Plus gros n’est pas toujours mieux

RETRO s’inspire de deux autres études publiées par DeepMind cette semaine, l’une examinant comment la taille d’un modèle affecte ses performances et l’autre examinant les dommages potentiels causés par ces IA.

Pour étudier la taille, DeepMind a construit un grand modèle de langage appelé Gopher, avec 280 milliards de paramètres. Il a battu les modèles de pointe sur 82% des plus de 150 défis linguistiques courants qu’ils ont utilisés pour les tests. Les chercheurs l’ont ensuite opposé à RETRO et ont découvert que le modèle de 7 milliards de paramètres correspondait aux performances de Gopher dans la plupart des tâches.

L’étude d’éthique est une étude complète des problèmes bien connus inhérents aux grands modèles de langage. Ces modèles retiennent les préjugés, la désinformation et le langage toxique tels que les discours de haine dans les articles et les livres sur lesquels ils sont formés. En conséquence, ils crachent parfois des déclarations nuisibles, reflétant sans réfléchir ce qu’ils ont rencontré dans le texte de formation sans savoir ce que cela signifie. « Même un modèle qui imiterait parfaitement les données serait biaisé », déclare Rae.

Source

L’article DeepMind affirme que son nouveau modèle de langage peut battre les autres 25 fois sa taille est apparu en premier sur zimo news.