France World

modélisation covid-19, Youyang Gu, apprentissage automatique, science des données

«Il est devenu clair que nous n’allons pas atteindre l’immunité collective en 2021, du moins certainement pas dans tout le pays», dit-il. «Et je pense qu’il est important, surtout si vous essayez d’inculquer la confiance, que nous fassions des chemins raisonnables pour revenir à la normale. Nous ne devrions pas associer cela à un objectif irréaliste, comme l’immunité collective. Je suis toujours prudemment optimiste quant à la validité de mes prévisions initiales de février, pour un retour à la normale cet été. »

Au début du mois de mars, il a fait ses valises entièrement – il a pensé qu’il avait apporté toute la contribution qu’il pouvait. «Je voulais prendre du recul et laisser les autres modeleurs et experts faire leur travail», dit-il. «Je ne veux pas embrouiller l’espace.»

Il garde toujours un œil sur les données, fait des recherches et des analyses – sur les variantes, le déploiement du vaccin et la quatrième vague. «Si je vois quelque chose de particulièrement troublant ou inquiétant dont je pense que les gens ne parlent pas, je le posterai certainement», dit-il. Mais pour le moment, il se concentre sur d’autres projets, tels que «Actions YOLO», Une plate-forme d’analyse boursière. Son principal travail en cas de pandémie est en tant que membre du groupe consultatif technique de l’Organisation mondiale de la santé sur l’évaluation de la mortalité covid-19, où il partage l’expertise de son étranger.

«J’ai certainement beaucoup appris cette année», dit Gu. «C’était très révélateur.»

Leçon n ° 1: Concentrez-vous sur les fondamentaux

«Du point de vue de la science des données, mes modèles ont montré l’importance de la simplicité, qui est souvent sous-estimée», déclare Gu. Son modèle de prévision de la mort était simple non seulement dans sa conception – le composant SEIR avec une couche d’apprentissage automatique – mais aussi dans son approche très épurée et «ascendante» concernant les données d’entrée. De bas en haut signifie «commencer par le strict minimum et ajouter de la complexité au besoin», dit-il. «Mon modèle n’utilise que les décès passés pour prédire les décès futurs. Il n’utilise aucune autre source de données réelle. »

Gu a remarqué que d’autres modèles s’appuyaient sur une variété éclectique de données sur les cas, les hospitalisations, les tests, la mobilité, l’utilisation du masque, les comorbidités, la répartition par âge, la démographie, la saisonnalité de la pneumonie, le taux annuel de mortalité par pneumonie, la densité de la population, la pollution de l’air, l’altitude, les données sur le tabagisme, l’auto -contacts signalés, trafic de passagers des compagnies aériennes, point de service, thermomètres intelligents, publications Facebook, recherches Google, etc.

«On pense que si vous ajoutez plus de données au modèle ou si vous le rendez plus sophistiqué, le modèle fonctionnera mieux», dit-il. « Mais dans des situations réelles comme la pandémie, où les données sont si bruyantes, vous voulez garder les choses aussi simples que possible. »

«J’ai décidé très tôt que les décès passés sont le meilleur indicateur de décès futurs. C’est très simple: entrée, sortie. L’ajout de sources de données supplémentaires rendra simplement plus difficile l’extraction du signal du bruit. »

Leçon n ° 2: Minimiser les hypothèses

Gu considère qu’il avait un avantage à aborder le problème avec une ardoise vierge. «Mon objectif était simplement de suivre les données sur covid pour en savoir plus sur covid», dit-il. «C’est l’un des principaux avantages du point de vue d’un étranger.»

Mais n’étant pas épidémiologiste, Gu devait également s’assurer qu’il ne faisait pas d’hypothèses incorrectes ou inexactes. «Mon rôle est de concevoir le modèle de manière à ce qu’il puisse apprendre les hypothèses pour moi», dit-il.

«Lorsque de nouvelles données qui vont à l’encontre de nos croyances arrivent, nous avons parfois tendance à les négliger ou à les ignorer, ce qui peut avoir des répercussions sur la route», note-t-il. «Je me suis certainement retrouvé victime de cela, et je sais que beaucoup d’autres personnes l’ont également fait.»

«Donc, être conscient du biais potentiel que nous avons et le reconnaître, et être capable d’ajuster nos a priori – ajuster nos croyances si de nouvelles données les réfutent – est vraiment important, en particulier dans un environnement en évolution rapide comme ce que nous avons vu avec covid. »

Leçon n ° 3: Testez l’hypothèse

«Ce que j’ai vu au cours des derniers mois, c’est que n’importe qui peut faire des réclamations ou manipuler des données pour correspondre au récit de ce en quoi il veut croire», dit Gu. Cela met en évidence l’importance de simplement faire des hypothèses vérifiables.

«Pour moi, c’est toute la base de mes projections et prévisions. J’ai un ensemble d’hypothèses, et si ces hypothèses sont vraies, alors c’est ce que nous prévoyons se produira à l’avenir », dit-il. «Et si les hypothèses finissent par être fausses, alors bien sûr nous devons admettre que les hypothèses que nous formulons ne sont pas vraies et ajuster en conséquence. Si vous ne faites pas d’hypothèses testables, il n’y a aucun moyen de montrer si vous avez réellement raison ou tort. « 

Leçon n ° 4: Apprendre des erreurs

«Toutes les projections que j’ai faites n’étaient pas correctes», dit Gu. En mai 2020, il prévoyait 180000 décès aux États-Unis d’ici août. «C’est beaucoup plus élevé que ce que nous avons vu», se souvient-il. Son hypothèse testable s’est avérée incorrecte – «et cela m’a obligé à ajuster mes hypothèses.»

À l’époque, Gu utilisait un taux de mortalité par infection fixe d’environ 1% comme constante dans le simulateur SEIR. Quand, en été, il a abaissé le taux de mortalité par infection à environ 0,4% (et plus tard à environ 0,7%), ses projections sont revenues à une fourchette plus réaliste.

Leçon n ° 5: Engagez les critiques

«Tout le monde ne sera pas d’accord avec mes idées, et je m’en réjouis», déclare Gu, qui a utilisé Twitter pour publier ses projections et ses analyses. «J’essaie de répondre autant que je peux aux gens, de défendre ma position et de débattre avec les gens. Cela vous oblige à réfléchir à vos hypothèses et à la raison pour laquelle vous pensez qu’elles sont correctes. »

«Cela revient à un biais de confirmation», dit-il. «Si je ne suis pas en mesure de défendre correctement ma position, est-ce vraiment la bonne revendication, et devrais-je faire ces affirmations? Cela m’aide à comprendre, en m’engageant avec d’autres personnes, à penser à ces problèmes. Lorsque d’autres personnes présentent des preuves qui vont à l’encontre de mes positions, je dois être en mesure de reconnaître quand je peux me tromper dans certaines de mes hypothèses. Et cela m’a en fait énormément aidé à améliorer mon modèle.

Leçon n ° 6: Faites preuve d’un scepticisme sain

«Je suis maintenant beaucoup plus sceptique à l’égard de la science – et ce n’est pas une mauvaise chose», dit Gu. «Je pense qu’il est important de toujours remettre en question les résultats, mais de manière saine. C’est une ligne fine. Parce que beaucoup de gens rejettent catégoriquement la science, et ce n’est pas non plus la bonne façon de procéder.

«Mais je pense qu’il est également important de ne pas se fier aveuglément à la science», poursuit-il. «Les scientifiques ne sont pas parfaits.» Il convient, dit-il, si quelque chose ne va pas, de poser des questions et de trouver des explications. «Il est important d’avoir des perspectives différentes. S’il y a quelque chose que nous avons appris au cours de l’année écoulée, c’est que personne n’a raison à 100% tout le temps.

«Je ne peux pas parler au nom de tous les scientifiques, mais mon travail consiste à éliminer tout le bruit et à découvrir la vérité», dit-il. «Je ne dis pas que j’ai été parfait au cours de cette dernière année. Je me suis trompé plusieurs fois. Mais je pense que nous pouvons tous apprendre à aborder la science comme une méthode pour trouver la vérité, plutôt que la vérité elle-même.

Source

L’article modélisation covid-19, Youyang Gu, apprentissage automatique, science des données est apparu en premier sur zimo news.