Tout d'abord, ce n'est qu'une plaisanterie et est incorrect. Google compte de nombreux statisticiens très talentueux, des experts en recherche d'informations, des linguistes, des économistes, certains psychologues et d'autres. Ces gens passent beaucoup de temps à éduquer beaucoup de non-statisticiens sur la différence entre corrélation et causalité. Étant donné qu'il s'agit d'une grande organisation, il peut y avoir des poches, voire de grandes poches, d'ignorance, mais l'affirmation est définitivement fausse. De plus, une grande partie de cette éducation est confrontée aux clients, en particulier aux annonceurs.
Réponse plus profonde: la différence est extrêmement importante. Il suffit de regarder le classement des résultats de recherche et de m'étendre au-delà de la simple "corrélation" pour inclure des mesures de similitude, des fonctions de notation, etc. Certaines pages sont considérées comme de bons résultats pour certaines requêtes. Ceux-ci ont une variété de fonctionnalités de prédicteur qui sont importantes pour leur classement. Contrairement à ces bonnes pages qui donnent de bons résultats pour les requêtes, il y a un ensemble de pages Web qui sont de très mauvais résultats pour les mêmes requêtes. Cependant, les créateurs de ces pages consacrent beaucoup d'efforts à les faire ressembler à de bonnes pages d'un point de vue numérique, telles que les correspondances de texte, la liaison Internet, etc. Cependant, ce n'est pas parce que ces pages sont numériquement "similaires" à de bonnes pages que ce sont en fait de bonnes pages. Par conséquent, Google a investi et continuera d'investir beaucoup d'efforts pour déterminer quelles fonctionnalités raisonnables distinguent les pages bonnes et mauvaises (séparées).
Ce n'est pas tout à fait une corrélation et une causalité, mais c'est plus profond que cela. Les bonnes pages pour certaines requêtes peuvent être mappées dans un espace numérique où elles apparaissent similaires et distinctes de nombreuses pages non pertinentes ou incorrectes, mais le simple fait que les résultats se trouvent dans la même région de l'espace des fonctionnalités n'implique pas qu'elles proviennent du même sous-ensemble de «haute qualité» du web.
Réponse plus simple: une perspective très simple consiste à aborder le classement des résultats. Le meilleur résultat devrait être le premier, mais ce n'est pas parce que quelque chose est classé premier que c'est le meilleur résultat. Selon certaines mesures de notation, vous pouvez constater que le classement de Google est corrélé à un standard d'or des évaluations de la qualité, mais cela ne signifie pas que leur classement implique que les résultats sont vraiment dans cet ordre en termes de qualité et de pertinence.
Mise à jour (troisième réponse): Au fil du temps, il y a un autre aspect qui nous affecte tous: c'est que le meilleur résultat Google peut être considéré comme faisant autorité, car c'est le meilleur résultat sur Google. Bien que l'analyse des liens (par exemple, "PageRank" - une méthode pour l'analyse des liens) soit une tentative de refléter une autorité perçue, au fil du temps, de nouvelles pages sur un sujet peuvent simplement renforcer cette structure de liens en établissant un lien vers le meilleur résultat sur Google. Une page plus récente qui fait plus autorité a un problème avec le début par rapport au premier résultat. Étant donné que Google souhaite proposer la page la plus pertinente à l'heure actuelle , divers facteurs, notamment un phénomène dit «riche-riche», surviennent en raison d'un effet implicite de corrélation sur la causalité perçue.
Mise à jour (quatrième réponse): J'ai réalisé (pour un commentaire ci-dessous) qu'il pourrait être utile de lire l'allégorie de Platon de la grotte pour avoir une idée de la façon d'interpréter la corrélation et la causalité à la suite de «réflexions / projections» de la réalité et comment nous (ou nos machines) le percevons. La corrélation, strictement limitée à la corrélation de Pearson, est beaucoup trop limitée en tant qu'interprétation de la question de l'association de malentendus (plus large que la simple corrélation) et du lien de causalité.