France World

Supprimer des ensembles de données contraires à l’éthique ne suffit pas

L’analyse des chercheurs suggère également que Labeled Faces in the Wild (LFW), un ensemble de données introduit en 2007 et le premier à utiliser des images de visage extraites d’Internet, s’est transformé plusieurs fois en près de 15 ans d’utilisation. Alors qu’il a commencé comme une ressource pour évaluer les modèles de reconnaissance faciale uniquement pour la recherche, il est maintenant utilisé presque exclusivement pour évaluer les systèmes destinés à être utilisés dans le monde réel. Ceci malgré une étiquette d’avertissement sur le site Web de l’ensemble de données qui met en garde contre une telle utilisation.

Plus récemment, l’ensemble de données a été réutilisé dans un dérivé appelé SMFRD, qui a ajouté des masques faciaux à chacune des images pour faire progresser la reconnaissance faciale pendant la pandémie. Les auteurs notent que cela pourrait soulever de nouveaux défis éthiques. Les défenseurs de la vie privée ont critiqué ces applications pour alimenter la surveillance, par exemple, et en particulier pour permettre au gouvernement d’identifier les manifestants masqués.

« C’est un document très important, car les yeux des gens n’ont généralement pas été ouverts aux complexités, aux dommages et aux risques potentiels des ensembles de données », déclare Margaret Mitchell, chercheuse en éthique de l’IA et leader des pratiques de données responsables, qui n’était pas impliqués dans l’étude.

Pendant longtemps, la culture au sein de la communauté de l’IA a été de supposer que les données existent pour être utilisées, ajoute-t-elle. Ce document montre comment cela peut entraîner des problèmes sur toute la ligne. « Il est vraiment important de réfléchir aux différentes valeurs qu’un ensemble de données encode, ainsi qu’aux valeurs qu’encode le fait d’avoir un ensemble de données disponible », dit-elle.

Une réparation

Les auteurs de l’étude fournissent plusieurs recommandations pour la communauté de l’IA à l’avenir. Premièrement, les créateurs devraient communiquer plus clairement sur l’utilisation prévue de leurs ensembles de données, à la fois par le biais de licences et d’une documentation détaillée. Ils devraient également imposer des limites plus strictes à l’accès à leurs données, peut-être en exigeant des chercheurs qu’ils signent des termes d’accord ou en leur demandant de remplir une demande, surtout s’ils ont l’intention de construire un ensemble de données dérivées.

Deuxièmement, les conférences de recherche devraient établir des normes sur la manière dont les données devraient être collectées, étiquetées et utilisées, et elles devraient créer des incitations à la création d’ensembles de données responsables. NeurIPS, la plus grande conférence de recherche sur l’IA, comprend déjà une liste de contrôle des meilleures pratiques et des directives éthiques.

Mitchell suggère d’aller encore plus loin. Dans le cadre du projet BigScience, une collaboration entre des chercheurs en IA pour développer un modèle d’IA capable d’analyser et de générer un langage naturel selon une norme d’éthique rigoureuse, elle a expérimenté l’idée de créer des organisations de gestion des ensembles de données – des équipes de personnes qui non seulement gérer la conservation, la maintenance et l’utilisation des données, mais aussi travailler avec des avocats, des militants et le grand public pour s’assurer qu’elles sont conformes aux normes légales, qu’elles ne sont collectées qu’avec le consentement et qu’elles peuvent être supprimées si quelqu’un choisit de retirer des informations personnelles. De telles organisations de gestion ne seraient pas nécessaires pour tous les ensembles de données, mais certainement pour les données grattées qui pourraient contenir des informations biométriques ou personnellement identifiables ou de la propriété intellectuelle.

« La collecte et la surveillance des ensembles de données ne sont pas une tâche ponctuelle pour une ou deux personnes », dit-elle. « Si vous le faites de manière responsable, cela se décompose en une tonne de tâches différentes qui nécessitent une réflexion approfondie, une expertise approfondie et une variété de personnes différentes. »

Au cours des dernières années, le domaine a de plus en plus évolué vers la conviction que des ensembles de données plus soigneusement organisés seront essentiels pour surmonter de nombreux défis techniques et éthiques de l’industrie. Il est maintenant clair que la construction d’ensembles de données plus responsables ne suffit pas. Ceux qui travaillent dans l’IA doivent également s’engager à long terme à les maintenir et à les utiliser de manière éthique.

Source

L’article Supprimer des ensembles de données contraires à l’éthique ne suffit pas est apparu en premier sur zimo news.