Oui mais: Ces dernières années, des études ont montré que ces ensembles de données peuvent contenir de graves lacunes. ImageNet, par exemple, contient étiquettes racistes et sexistes ainsi que des photos de les visages des gens obtenus sans consentement. La dernière étude se penche maintenant sur un autre problème: de nombreuses étiquettes sont tout simplement fausses. Un champignon est étiqueté une cuillère, une grenouille est étiquetée un chat et une note élevée d’Ariana Grande est étiquetée un sifflet. L’ensemble de test ImageNet a un taux d’erreur d’étiquette estimé de 5,8%. Pendant ce temps, l’ensemble de test pour QuickDraw, une compilation de dessins à la main, a un taux d’erreur estimé de 10,1%.
Comment a-t-il été mesuré? Chacun des 10 ensembles de données utilisés pour évaluer les modèles a un ensemble de données correspondant utilisé pour les entraîner. Les chercheurs, Curtis G.Northcutt et Anish Athalye et alun Jonas Mueller, étudiants diplômés du MIT, ont utilisé les ensembles de données de formation pour développer un modèle d’apprentissage automatique, puis l’ont utilisé pour prédire les étiquettes dans les données de test. Si le modèle n’était pas d’accord avec l’étiquette d’origine, le point de données était signalé pour examen manuel. On a demandé à cinq examinateurs humains d’Amazon Mechanical Turk de voter sur quelle étiquette – celle du modèle ou l’original – ils pensaient que c’était correct. Si la majorité des évaluateurs humains étaient d’accord avec le modèle, l’étiquette d’origine a été comptabilisée comme une erreur puis corrigée.
Est-ce important? Oui. Les chercheurs ont examiné 34 modèles dont les performances avaient été précédemment mesurées par rapport à l’ensemble de test ImageNet. Ensuite, ils ont remesuré chaque modèle par rapport aux quelque 1 500 exemples où les étiquettes de données se sont révélées erronées. Ils ont constaté que les modèles qui ne fonctionnaient pas si bien sur l’original Incorrect les étiquettes ont été parmi les plus performantes après la correction des étiquettes. En particulier, les modèles les plus simples semblaient mieux tirer parti des données corrigées que les modèles plus compliqués utilisés par des géants de la technologie comme Google pour la reconnaissance d’images et supposés être les meilleurs dans le domaine. En d’autres termes, nous pouvons avoir une idée exagérée de la grandeur de ces modèles compliqués en raison de données de test défectueuses.
Maintenant quoi? Northcutt encourage le domaine de l’IA à créer des ensembles de données plus propres pour évaluer les modèles et suivre les progrès du champ. Il recommande également aux chercheurs d’améliorer l’hygiène de leurs données lorsqu’ils travaillent avec leurs propres données. Sinon, dit-il, «si vous avez un ensemble de données bruyant et un tas de modèles que vous essayez, et que vous allez les déployer dans le monde réel», vous pourriez finir par sélectionner le mauvais modèle. À cette fin, il a ouvert le code il a utilisé dans son étude pour corriger les erreurs d’étiquette, qui, selon lui, sont déjà utilisées dans quelques grandes entreprises technologiques.
L’article Les ensembles de données AI sont remplis d’erreurs. Cela déforme ce que nous savons de l’IA est apparu en premier sur zimo news.