Jusqu'à présent, les réponses se sont concentrées sur les données elles- mêmes, ce qui est logique avec le site sur lequel il est activé et ses failles.
Mais je suis un épidémiologiste en calcul mathématique par inclination, alors je vais aussi parler un peu du modèle lui-même, car il est également pertinent pour la discussion.
Dans mon esprit, le plus gros problème avec le papier n'est pas les données de Google. Les modèles mathématiques en épidémiologie traitent en permanence des données confuses et, à mon avis, les problèmes que cela pose pourraient être résolus au moyen d’une analyse de sensibilité relativement simple.
Le plus gros problème, à mes yeux, est que les chercheurs se sont "voués au succès", ce qui devrait toujours être évité dans la recherche. Ils le font dans le modèle qu'ils ont décidé d'adapter aux données: un modèle SIR standard.
En bref, un modèle SIR (qui signifie «susceptible (S) infectieux (I) récupéré» (R)) est une série d’équations différentielles qui suivent l’état de santé d’une population exposée à une maladie infectieuse. Les individus infectés interagissent avec les individus sensibles et les infectent, puis, avec le temps, passent à la catégorie des personnes guéries.
Cela produit une courbe qui ressemble à ceci:
Beau, n'est-ce pas? Et oui, celui-ci est pour une épidémie de zombies. Longue histoire.
Dans ce cas, la ligne rouge représente ce qui est modélisé comme "utilisateurs de Facebook". Le problème est le suivant:
Dans le modèle SIR de base, la classe I finira inévitablement et inévitablement par approcher zéro de façon asymptotique .
Ça doit arriver. Peu importe que vous modélisiez des zombies, la rougeole, Facebook ou Stack Exchange, etc. Si vous le modélisez avec un modèle SIR, la conclusion inévitable est que la population de la classe infectieuse (I) tombe à environ zéro.
Il existe des extensions extrêmement simples du modèle SIR qui rendent cette affirmation fausse. Vous pouvez également faire revenir des personnes de la classe récupérée (R) dans réceptive (S) (essentiellement, ce sont les personnes qui ont quitté Facebook en remplaçant ne revenez jamais "sur" je pourrais y retourner un jour "), ou vous pouvez faire venir de nouvelles personnes dans la population (ce serait la petite Timmy et Claire obtenir leurs premiers ordinateurs).
Malheureusement, les auteurs ne correspondaient pas à ces modèles. Ce problème est d'ailleurs largement répandu dans la modélisation mathématique. Un modèle statistique est une tentative pour décrire les modèles de variables et leurs interactions dans les données. Un modèle mathématique est une affirmation de la réalité . Vous pouvez obtenir un modèle SIR adapté à beaucoup de choses, mais votre choix d'un modèle SIR est également une affirmation du système. À savoir qu'une fois qu'il atteint son maximum, il se dirige vers zéro.
Incidemment, les sociétés Internet utilisent des modèles de rétention des utilisateurs qui ressemblent énormément à des modèles épidémiques, mais ils sont aussi considérablement plus complexes que celui présenté dans le document.