En mars 2020, lorsque l’OMS a déclaré une pandémie, la base de données de séquences publiques GISAID contenait 524 séquences de covid. Au cours du mois suivant, les scientifiques en ont téléchargé 6 000 autres. À la fin du mois de mai, le total dépassait les 35 000. (En revanche, les scientifiques du monde entier ont ajouté 40 000 séquences de grippe à GISAID au cours de l’année 2019.)
« Sans nom, oubliez-le, nous ne pouvons pas comprendre ce que les autres disent », déclare Anderson Brito, postdoctorant en épidémiologie génomique à la Yale School of Public Health, qui contribue à l’effort Pango.
Alors que le nombre de séquences de covid augmentait en flèche, les chercheurs essayant de les étudier ont été contraints de créer à la volée une infrastructure et des normes entièrement nouvelles. Un système de nommage universel a été l’un des éléments les plus importants de cet effort : sans lui, les scientifiques auraient du mal à se parler de la façon dont les descendants du virus voyagent et changent, soit pour signaler une question, soit, plus critique encore, pour sonner l’alarme.
D’où vient Pango
En avril 2020, une poignée d’éminents virologues au Royaume-Uni et en Australie propose un système de lettres et de chiffres pour nommer des lignées, ou de nouvelles branches, de la famille covid. Il avait une logique et une hiérarchie, même si les noms qu’il générait, comme B.1.1.7, étaient un peu longs.
L’un des auteurs de l’article était Áine O’Toole, doctorante à l’Université d’Édimbourg. Bientôt, elle était devenue la principale personne effectuant ce tri et cette classification, passant finalement au peigne fin des centaines de milliers de séquences à la main.
Elle dit : « Très tôt, c’était juste qui était disponible pour organiser les séquences. Cela a fini par être mon travail pendant un bon moment. Je suppose que je n’ai jamais vraiment compris l’échelle à laquelle nous allions arriver.
Elle s’est rapidement mise à créer un logiciel pour attribuer de nouveaux génomes aux bonnes lignées. Peu de temps après, une autre chercheuse, la postdoctorante Emily Scher, a construit un algorithme d’apprentissage automatique pour accélérer encore plus les choses.
« Sans nom, oubliez-le, nous ne pouvons pas comprendre ce que disent les autres. »
Anderson Brito, École de santé publique de Yale
Ils ont nommé le logiciel Pangolin, une référence ironique à un débat sur l’origine animale du covid. (L’ensemble du système est maintenant simplement connu sous le nom de Pango.)
Le système de nommage, ainsi que le logiciel pour le mettre en œuvre, sont rapidement devenus un incontournable mondial. Bien que l’OMS ait récemment commencé à utiliser des lettres grecques pour des variantes qui semblent particulièrement préoccupantes, comme delta, ces surnoms sont destinés au public et aux médias. Delta fait en fait référence à une famille croissante de variantes, que les scientifiques appellent par leurs noms Pango plus précis : B.1.617.2, AY.1, AY.2 et AY.3.
« Lorsque l’alpha est apparu au Royaume-Uni, Pango nous a permis de rechercher très facilement ces mutations dans nos génomes pour voir si nous avions également cette lignée dans notre pays », explique Jolly. « Depuis lors, Pango a été utilisé comme référence pour la notification et la surveillance des variantes en Inde. »
Parce que Pango propose une approche rationnelle et ordonnée de ce qui serait autrement le chaos, cela pourrait changer à jamais la façon dont les scientifiques nomment les souches virales, permettant aux experts du monde entier de travailler ensemble avec un vocabulaire commun. Brito dit : « Très probablement, ce sera un format que nous utiliserons pour suivre tout autre nouveau virus. »
De nombreux outils fondamentaux pour le suivi des génomes de covid ont été développés et maintenus par des scientifiques en début de carrière comme O’Toole et Scher au cours de la dernière année et demie. Alors que le besoin de collaboration mondiale contre le covid explosait, les scientifiques se sont précipités pour le soutenir avec une infrastructure ad hoc comme Pango. Une grande partie de ce travail revenait à de jeunes chercheurs férus de technologie dans la vingtaine et la trentaine. Ils utilisaient des réseaux informels et des outils open source, ce qui signifie qu’ils étaient libres d’utilisation et que n’importe qui pouvait se porter volontaire pour apporter des ajustements et des améliorations.
« Les personnes à la pointe des nouvelles technologies ont tendance à être des étudiants diplômés et des post-doctorants », explique Angie Hinrichs, bioinformaticienne à l’UC Santa Cruz qui a rejoint le projet Pangolin plus tôt cette année. Par exemple, O’Toole et Scher travaillent dans le laboratoire d’Andrew Rambaut, un épidémiologiste génomique qui a mis en ligne les premières séquences publiques de covid après les avoir reçues de scientifiques chinois. « Il se trouve qu’ils étaient parfaitement placés pour fournir ces outils qui sont devenus absolument essentiels », déclare Hinrichs.
Construire rapidement
Cela n’a pas été facile. Pendant la majeure partie de 2020, O’Toole a assumé l’essentiel de la responsabilité d’identifier et de nommer de nouvelles lignées par elle-même. L’université a été fermée, mais elle et une autre doctorante de Rambaut, Verity Hill, ont obtenu la permission d’entrer dans le bureau. Son trajet domicile-travail, à pied 40 minutes jusqu’à l’école depuis l’appartement où elle vivait seule, lui a donné un certain sentiment de normalité.
Toutes les quelques semaines, O’Toole téléchargeait l’intégralité du référentiel covid à partir de la base de données GISAID, qui avait augmenté de façon exponentielle à chaque fois. Ensuite, elle cherchait des groupes de génomes avec des mutations qui semblaient similaires, ou des choses qui semblaient étranges et pourraient avoir été mal étiquetées.
Lorsqu’elle était particulièrement coincée, Hill, Rambaut et d’autres membres du laboratoire intervenaient pour discuter des désignations. Mais le gros du travail est tombé sur elle.
« Imaginez que vous parcouriez 20 000 séquences provenant de 100 endroits différents dans le monde. J’ai vu des séquences provenant d’endroits dont je n’avais même jamais entendu parler. »
ine O’Toole, Université d’Édimbourg
Décider quand les descendants du virus méritent un nouveau nom de famille peut être autant un art qu’une science. Ce fut un processus laborieux, passant au crible un nombre inouï de génomes et se demandant encore et encore : est-ce une nouvelle variante de covid ou non ?
«C’était assez fastidieux», dit-elle. «Mais c’était toujours très humiliant. Imaginez-vous en train de parcourir 20 000 séquences provenant de 100 endroits différents dans le monde. J’ai vu des séquences d’endroits dont je n’avais même jamais entendu parler.
Au fil du temps, O’Toole a eu du mal à suivre le volume de nouveaux génomes à trier et à nommer.
En juin 2020, il y avait plus de 57 000 séquences stockées dans la base de données GISAID, et O’Toole les avait triées en 39 variantes. En novembre 2020, un mois après qu’elle était censée rendre sa thèse, O’Toole a effectué sa dernière analyse en solo des données. Il lui a fallu 10 jours pour parcourir toutes les séquences, qui étaient alors au nombre de 200 000. (Bien que covid ait éclipsé ses recherches sur d’autres virus, elle met un chapitre sur Pango dans sa thèse.)
Heureusement, le logiciel Pango est conçu pour être collaboratif, et d’autres se sont intensifiés. Une communauté en ligne, celle vers laquelle Jolly s’est tournée lorsqu’elle a remarqué la variante qui balayait l’Inde, a germé et s’est développée. Cette année, le travail d’O’Toole a été beaucoup plus manuel. De nouvelles lignées sont désormais désignées principalement lorsque des épidémiologistes du monde entier contactent O’Toole et le reste de l’équipe via Twitter, e-mail ou GitHub, sa méthode préférée.
« Maintenant, c’est plus réactionnaire », dit O’Toole. « Si un groupe de chercheurs quelque part dans le monde travaille sur des données et qu’ils pensent avoir identifié une nouvelle lignée, ils peuvent faire une demande. »
Le déluge de données s’est poursuivi. Au printemps dernier, l’équipe a organisé un « pangothon », une sorte de hackathon dans lequel ils ont trié 800 000 séquences dans environ 1 200 lignées.
« Nous nous sommes donnés trois jours solides », dit O’Toole. «Ça a pris deux semaines.»
Depuis lors, l’équipe Pango a recruté quelques volontaires supplémentaires, comme le chercheur de l’UCSC Hindriks et le chercheur de Yale Brito, qui se sont tous deux impliqués initialement en ajoutant leur contribution sur Twitter et la page GitHub. Un post-doctorant à l’Université de Cambridge, Chris Ruis, s’est concentré sur l’aide à O’Toole pour éliminer l’arriéré des demandes GitHub.
O’Toole leur a récemment demandé de rejoindre officiellement l’organisation dans le cadre du réseau Pango nouvellement créé. Comité de désignation de lignage, qui discute et prend des décisions sur les noms de variantes. Un autre comité, qui comprend le chef de laboratoire Rambaut, prend des décisions de plus haut niveau.
« Nous avons un site Web et un e-mail qui n’est pas seulement mon e-mail », explique O’Toole. « C’est devenu beaucoup plus formalisé, et je pense que cela l’aidera vraiment à évoluer. »
L’avenir
Quelques fissures sur les bords ont commencé à apparaître à mesure que les données augmentaient. À ce jour, il y a près de 2,5 millions de séquences covid dans GISAID, que l’équipe Pango a divisé en 1 300 succursales. Chaque branche correspond à une variante. Parmi ceux-ci, huit sont à surveiller, selon l’OMS.
Avec tant de choses à traiter, le logiciel commence à se déformer. Les choses sont mal étiquetées. De nombreuses souches se ressemblent, car le virus développe encore et encore les mutations les plus avantageuses.
Comme mesure provisoire, l’équipe a créé un nouveau logiciel qui utilise une méthode de tri différente et peut attraper les choses que Pango peut manquer.
L’article Rencontrez les personnes qui avertissent le monde des nouvelles variantes de covid est apparu en premier sur zimo news.