Qu’est-ce que cela signifie pour un modèle d’être grand? La taille d’un modèle (un réseau de neurones entraîné) est mesurée par le nombre de paramètres dont il dispose. Ce sont les valeurs du réseau qui sont modifiées encore et encore pendant l’entraînement et qui sont ensuite utilisées pour faire les prédictions du modèle. En gros, plus un modèle a de paramètres, plus il peut absorber d’informations à partir de ses données d’entraînement, et plus ses prédictions sur les nouvelles données seront précises.
GPT-3 possède 175 milliards de paramètres, soit 10 fois plus que son prédécesseur, GPT-2. Mais GPT-3 est éclipsé par la classe de 2021. Jurassic-1, un grand modèle de langage disponible dans le commerce lancé par la startup américaine AI21 Labs en septembre, a devancé GPT-3 avec 178 milliards de paramètres. Gopher, un nouveau modèle publié par DeepMind en décembre, compte 280 milliards de paramètres. Megatron-Turing NLG a 530 milliards. Les modèles Switch-Transformer et GLaM de Google ont respectivement un et 1 200 milliards de paramètres.
La tendance n’est pas seulement aux États-Unis. Cette année, le géant chinois de la technologie Huawei a construit un modèle de langage de 200 milliards de paramètres appelé PanGu. Inspur, une autre entreprise chinoise, a construit Yuan 1.0, un modèle de 245 milliards de paramètres. Baidu et Peng Cheng Laboratory, un institut de recherche de Shenzhen, ont annoncé le PCL-BAIDU Wenxin, un modèle avec 280 milliards de paramètres que Baidu utilise déjà dans diverses applications, notamment la recherche sur Internet, les flux d’actualités et les haut-parleurs intelligents. Et l’Académie de l’IA de Pékin a annoncé Wu Dao 2.0, qui compte 1,75 billion de paramètres.
Pendant ce temps, la société de recherche Internet sud-coréenne Naver a annoncé un modèle appelé HyperCLOVA, avec 204 milliards de paramètres.
Chacun d’entre eux est un exploit remarquable de l’ingénierie. Pour commencer, l’entraînement d’un modèle avec plus de 100 milliards de paramètres est un problème de plomberie complexe : des centaines de GPU individuels (le matériel de choix pour l’entraînement des réseaux de neurones profonds) doivent être connectés et synchronisés, et les données d’entraînement doivent être divisées en morceaux et répartis entre eux dans le bon ordre au bon moment.
Les grands modèles linguistiques sont devenus des projets de prestige qui mettent en valeur les prouesses techniques d’une entreprise. Pourtant, peu de ces nouveaux modèles font avancer la recherche au-delà de la répétition de la démonstration que la mise à l’échelle donne de bons résultats.
Il y a une poignée d’innovations. Une fois entraînés, Switch-Transformer et GLaM de Google utilisent une fraction de leurs paramètres pour faire des prédictions, ce qui leur permet d’économiser de la puissance de calcul. PCL-Baidu Wenxin combine un modèle de style GPT-3 avec un graphe de connaissances, une technique utilisée dans l’IA symbolique à l’ancienne pour stocker des faits. Et aux côtés de Gopher, DeepMind a publié RETRO, un modèle de langage avec seulement 7 milliards de paramètres qui rivalise avec d’autres 25 fois sa taille en croisant une base de données de documents lorsqu’il génère du texte. Cela rend RETRO moins coûteux à former que ses rivaux géants.
L’article 2021 était l’année des modèles d’IA monstres est apparu en premier sur zimo news.