France World

Les lacunes linguistiques en ligne aux États-Unis sont un problème urgent pour les Américains d’origine asiatique

Chen dit que si les politiques de modération de contenu de Facebook, Twitter et d’autres ont réussi à filtrer certaines des désinformations les plus évidentes en anglais, le système manque souvent ce contenu lorsqu’il est dans d’autres langues. Ce travail devait plutôt être effectué par des bénévoles comme son équipe, qui recherchaient la désinformation et étaient formés pour la désamorcer et minimiser sa propagation. «Ces mécanismes destinés à capter certains mots et certaines choses ne captent pas nécessairement cette désinformation et cette désinformation lorsqu’ils sont dans une langue différente», dit-elle.

Les services et technologies de traduction de Google, tels que Translatotron et casque de traduction en temps réel utiliser l’intelligence artificielle pour convertir entre les langues. Mais Xiong trouve ces outils inadéquats pour Hmong, un langage profondément complexe où le contexte est incroyablement important. «Je pense que nous sommes devenus vraiment complaisants et dépendants de systèmes avancés comme Google», dit-elle. «Ils prétendent être« accessibles dans un langage », puis je l’ai lu et cela dit quelque chose de totalement différent.»

(Un porte-parole de Google a admis que les langues plus petites «posent une tâche de traduction plus difficile», mais a déclaré que la société avait «investi dans des recherches qui profitent particulièrement aux traductions linguistiques à faibles ressources», en utilisant l’apprentissage automatique et les commentaires de la communauté.)

Jusqu’au bout

Les défis de la langue en ligne vont au-delà des États-Unis – et descendent, littéralement, jusqu’au code sous-jacent. Yudhanjaya Wijeratne est chercheur et data scientist au sein du think tank sri-lankais LIRNEasia. En 2018, il a commencé à traquer les réseaux de robots dont l’activité sur les réseaux sociaux encourageait la violence contre les musulmans: en février et mars de cette année-là, une série d’émeutes de bouddhistes cingalais visaient des musulmans et des mosquées dans les villes d’Ampara et de Kandy. Son équipe documenté «La logique de chasse» des robots, a catalogué des centaines de milliers de publications sur les réseaux sociaux cingalais et a transmis les résultats à Twitter et Facebook. «Ils disaient toutes sortes de choses gentilles et bien intentionnées – essentiellement des déclarations en conserve», dit-il. (Dans un communiqué, Twitter dit qu’il utilise un examen humain et des systèmes automatisés pour «appliquer nos règles de manière impartiale à toutes les personnes du service, quels que soient leurs antécédents, leur idéologie ou leur place dans l’échiquier politique.»)

Contacté par MIT Technology Review, un porte-parole de Facebook a déclaré que la société avait commandé une évaluation indépendante des droits de l’homme du rôle de la plateforme dans la violence au Sri Lanka, qui a été publié en mai 2020, et a apporté des changements à la suite des attaques, notamment en embauchant des dizaines de modérateurs de contenu parlant cinghalais et tamoul. «Nous avons déployé une technologie proactive de détection des discours de haine en cinghalais pour nous aider à identifier plus rapidement et plus efficacement les contenus potentiellement violents», ont-ils déclaré.

« Ce que je peux faire avec trois lignes de code en Python en anglais m’a littéralement pris deux ans à regarder 28 millions de mots de cinghalais »

Yudhanjaya Wijeratne, LIRNEasia

Lorsque le comportement du bot a continué, Wijeratne est devenu sceptique quant aux platitudes. Il a décidé d’examiner les bibliothèques de codes et les outils logiciels que les entreprises utilisaient et a constaté que les mécanismes de surveillance des discours de haine dans la plupart des langues autres que l’anglais n’avaient pas encore été mis en place.

«Une grande partie de la recherche, en fait, pour de nombreuses langues comme la nôtre n’a tout simplement pas encore été faite», dit Wijeratne. «Ce que je peux faire avec trois lignes de code en Python en anglais m’a littéralement pris deux ans à regarder 28 millions de mots de cinghalais pour construire les corpus de base, pour construire les outils de base, puis amener les choses à ce niveau où je pourrais potentiellement faire ce niveau d’analyse de texte. »

Après que des kamikazes aient ciblé des églises à Colombo, la capitale sri-lankaise, en avril 2019, Wijeratne a construit un outil pour analyser les discours de haine et la désinformation en cinghalais et en tamoul. Le système, appelé Chien de garde, est une application mobile gratuite qui regroupe les actualités et associe des avertissements aux fausses histoires. Les avertissements proviennent de volontaires formés à la vérification des faits.

Wijeratne souligne que ce travail va bien au-delà de la traduction.

«Bon nombre des algorithmes que nous tenons pour acquis et qui sont souvent cités dans la recherche, en particulier dans le traitement du langage naturel, donnent d’excellents résultats pour l’anglais», dit-il. « Et pourtant, de nombreux algorithmes identiques, même utilisés sur des langues qui ne sont distantes que de quelques degrés de différence – qu’il s’agisse de l’Allemagne de l’Ouest ou de l’arbre des langues romanes – peuvent donner des résultats complètement différents. »

Le traitement en langage naturel est à la base des systèmes automatisés de modération de contenu. Wijeratne publié un article en 2019 qui a examiné les écarts entre leur précision dans différentes langues. Il soutient que plus il existe de ressources de calcul pour un langage, comme des ensembles de données et des pages Web, mieux les algorithmes peuvent fonctionner. Les langues des pays ou des communautés les plus pauvres sont désavantagées.

«Si vous construisez, disons, l’Empire State Building pour l’anglais, vous avez les plans. Vous avez le matériel », dit-il. «Vous avez tout sous la main et tout ce que vous avez à faire est de rassembler tout cela. Pour toutes les autres langues, vous n’avez pas les plans.

«Vous n’avez aucune idée d’où va venir le béton. Vous n’avez pas d’acier et vous n’avez pas non plus d’ouvriers. Vous serez donc assis là à taper une brique à la fois et en espérant que votre petit-fils ou votre petite-fille pourrait terminer le projet.

Problèmes profonds

Le mouvement pour fournir ces plans est connu sous le nom de justice linguistique, et ce n’est pas nouveau. L’American Bar Association décrit la justice linguistique comme un «cadre» qui préserve le droit des gens «de communiquer, de comprendre et d’être compris dans la langue dans laquelle ils préfèrent et se sentent le plus articulés et puissants».

Source

L’article Les lacunes linguistiques en ligne aux États-Unis sont un problème urgent pour les Américains d’origine asiatique est apparu en premier sur zimo news.