Dans quelle mesure la distinction entre corrélation et causalité est-elle pertinente pour Google?

21

Le contexte

Une question populaire sur ce site est " Quels sont les péchés statistiques courants? ". L' un des péchés mentionnés suppose que « la corrélation implique un lien de causalité ... » lien

Ensuite, dans les commentaires avec 5 votes positifs, il est suggéré que: "Google gagne 65 milliards de dollars par an sans se soucier de la différence."

Au risque de sur-analyser une plaisanterie légère, j'ai pensé que cela pourrait être un point de discussion utile pour étoffer la distinction entre corrélation et causalité et la pertinence pratique de la distinction; et peut-être pourrait-il mettre en évidence quelque chose au sujet de la relation entre l'apprentissage automatique et la distinction entre corrélation et causalité.

Je suppose que le commentaire porte sur les technologies qui sous-tendent la génération de résultats des moteurs de recherche et les technologies liées à l'affichage publicitaire.

Question

Dans quelle mesure la distinction entre corrélation et causalité est-elle pertinente pour la génération de revenus de Google, se concentrant peut-être en particulier sur la génération de revenus grâce aux technologies liées à l'affichage publicitaire et aux résultats de recherche de qualité?

machine-learning causality

— Jeromy Anglim
source

C'est drôle, je regardais ce commentaire un peu plus tôt.

— Iterator

2

Le blog Revolutions a publié un article la semaine dernière sur la façon dont Google utilise R pour rendre la publicité en ligne plus efficace . Malheureusement, ils n'entrent pas trop dans les détails ...

— nico

13

La réponse simple est que Google (ou n'importe qui) devrait se soucier de la distinction dans la mesure où ils ont l'intention d' intervenir . La connaissance causale vous renseigne sur les effets des interventions (actions) dans un domaine donné.

Si, par exemple, Google souhaite augmenter les taux de clics sur les annonces, augmenter le nombre d'utilisateurs de GMail ou Google+, ou inciter les utilisateurs à utiliser Google plutôt que Bing, alors ils doivent connaître les effets des actions potentielles (par exemple, augmenter la taille de la police des annonces, la promotion de Google+ dans les magazines imprimés ou la publicité des différences entre les résultats de recherche Google et Bing, respectivement). La corrélation est suffisamment bonne pour que le moteur de recherche de Google fonctionne bien, mais pour leurs autres systèmes (et leur entreprise dans son ensemble), la distinction est souvent importante.

Il convient de noter que Google (et de nombreuses entreprises ayant des entreprises sur le Web) exécutent constamment des expériences en ligne. Il s'agit de la manière la plus simple et la meilleure d'identifier et d'estimer les dépendances causales.

— David Jensen
source

(+1) tant que les prédicteurs a) sont corrélés et b) permettent de prédire correctement les résultats futurs, il ne faut pas se soucier de la causalité.

— steffen

2

Nous entrons dans une ère de relance de la recherche expérimentale en sciences du comportement. Dans les années 50, la quasi-totalité de la statistique était de la recherche expérimentale, avec des applications en agriculture. Mais vers les années 1980, les gens ont reconnu que ces techniques ne sont pas d'une grande aide pour les données d'observation, ce qui est tout ce que vous pouvez faire dans la plupart des sciences sociales. Maintenant, au moins dans les niches de la recherche en marketing en ligne, si vous êtes Amazon ou Google ou Bing, vous pouvez exécuter des expériences et obtenir la forme la plus propre d'inférence causale possible.

— StasK

@StasK, Compte tenu de la taille des échantillons auxquels ils ont probablement affaire même à une "courte" expérience, ils sont susceptibles de produire des résultats très utiles. Quel trésor qui doit être.

— Brandon Bertelsen

Il est intéressant de noter que la fonction "groupes" de Google est vraiment, vraiment médiocre. C'est un peu comme s'ils ont construit un centre de discussion de groupe qui est en corrélation avec le fait d'être bon, mais ils n'ont pas compris ce qui fait qu'un centre de discussion de groupe est bon. Mais c'est un problème courant en marketing - trop souvent, les fonctionnalités de produits concurrents sont copiées sans comprendre la motivation sous-jacente des fonctionnalités.

— Daniel R Hicks

1

@StasK: Le monde réel n'est probablement pas aussi idéal que vous le prétendez ici. Je conviens que les expériences sont un excellent outil pour faire l'inférence causale. Cependant, les expériences posent également des problèmes spécifiques. Il serait parfois préférable de faire des inférences causales avec une étude observationnelle plutôt qu'avec une expérience. Une critique pourrait être en ce sens que les résultats d'une expérimentation contrôlée pourraient être généralisés à un environnement "réel". Certains auteurs appellent cela la "validité externe".

6

Tout d'abord, ce n'est qu'une plaisanterie et est incorrect. Google compte de nombreux statisticiens très talentueux, des experts en recherche d'informations, des linguistes, des économistes, certains psychologues et d'autres. Ces gens passent beaucoup de temps à éduquer beaucoup de non-statisticiens sur la différence entre corrélation et causalité. Étant donné qu'il s'agit d'une grande organisation, il peut y avoir des poches, voire de grandes poches, d'ignorance, mais l'affirmation est définitivement fausse. De plus, une grande partie de cette éducation est confrontée aux clients, en particulier aux annonceurs.

Réponse plus profonde: la différence est extrêmement importante. Il suffit de regarder le classement des résultats de recherche et de m'étendre au-delà de la simple "corrélation" pour inclure des mesures de similitude, des fonctions de notation, etc. Certaines pages sont considérées comme de bons résultats pour certaines requêtes. Ceux-ci ont une variété de fonctionnalités de prédicteur qui sont importantes pour leur classement. Contrairement à ces bonnes pages qui donnent de bons résultats pour les requêtes, il y a un ensemble de pages Web qui sont de très mauvais résultats pour les mêmes requêtes. Cependant, les créateurs de ces pages consacrent beaucoup d'efforts à les faire ressembler à de bonnes pages d'un point de vue numérique, telles que les correspondances de texte, la liaison Internet, etc. Cependant, ce n'est pas parce que ces pages sont numériquement "similaires" à de bonnes pages que ce sont en fait de bonnes pages. Par conséquent, Google a investi et continuera d'investir beaucoup d'efforts pour déterminer quelles fonctionnalités raisonnables distinguent les pages bonnes et mauvaises (séparées).

Ce n'est pas tout à fait une corrélation et une causalité, mais c'est plus profond que cela. Les bonnes pages pour certaines requêtes peuvent être mappées dans un espace numérique où elles apparaissent similaires et distinctes de nombreuses pages non pertinentes ou incorrectes, mais le simple fait que les résultats se trouvent dans la même région de l'espace des fonctionnalités n'implique pas qu'elles proviennent du même sous-ensemble de «haute qualité» du web.

Réponse plus simple: une perspective très simple consiste à aborder le classement des résultats. Le meilleur résultat devrait être le premier, mais ce n'est pas parce que quelque chose est classé premier que c'est le meilleur résultat. Selon certaines mesures de notation, vous pouvez constater que le classement de Google est corrélé à un standard d'or des évaluations de la qualité, mais cela ne signifie pas que leur classement implique que les résultats sont vraiment dans cet ordre en termes de qualité et de pertinence.

Mise à jour (troisième réponse): Au fil du temps, il y a un autre aspect qui nous affecte tous: c'est que le meilleur résultat Google peut être considéré comme faisant autorité, car c'est le meilleur résultat sur Google. Bien que l'analyse des liens (par exemple, "PageRank" - une méthode pour l'analyse des liens) soit une tentative de refléter une autorité perçue, au fil du temps, de nouvelles pages sur un sujet peuvent simplement renforcer cette structure de liens en établissant un lien vers le meilleur résultat sur Google. Une page plus récente qui fait plus autorité a un problème avec le début par rapport au premier résultat. Étant donné que Google souhaite proposer la page la plus pertinente à l'heure actuelle , divers facteurs, notamment un phénomène dit «riche-riche», surviennent en raison d'un effet implicite de corrélation sur la causalité perçue.

Mise à jour (quatrième réponse): J'ai réalisé (pour un commentaire ci-dessous) qu'il pourrait être utile de lire l'allégorie de Platon de la grotte pour avoir une idée de la façon d'interpréter la corrélation et la causalité à la suite de «réflexions / projections» de la réalité et comment nous (ou nos machines) le percevons. La corrélation, strictement limitée à la corrélation de Pearson, est beaucoup trop limitée en tant qu'interprétation de la question de l'association de malentendus (plus large que la simple corrélation) et du lien de causalité.

— Itérateur
source

Je ne suis pas d'accord. Si quelqu'un abuse des prédicteurs pour créer un classement de page artificiel élevé, la cible implique les prédicteurs, contrairement à ce que Google voulait lors de la création de l'algorithme de classement de page. Puisque la vraie métrique reste la même ("la bonne page", à laquelle le page-rank n'est qu'une approximation), les prédicteurs perdent leur corrélation et doivent donc être modifiés. Par conséquent, Google ne se soucie pas de la causalité concernant la vraie métrique "la bonne page", mais de celle approximative appelée page-rank.

— steffen

Aucune infraction, mais vous semblez un peu confus sur plusieurs questions. "PageRank" est un concept clairement défini et n'est qu'un prédicteur. Le principal problème que vous négligez est le processus industriel impliqué dans la définition et la création d'un ensemble de formation ainsi que la correspondance des attentes des utilisateurs. Malheureusement, les commentaires sont un endroit terrible pour commencer une longue introduction à l'apprentissage automatique appliqué.

— Iterator

Voulez-vous dire que dans le processus de génération et d'évaluation des prédicteurs par des connaissances d'experts, seuls les prédicteurs de "causalité" sont générés? Tant que l'on suit un tel processus et ne revient pas à une approche par essais et erreurs, vous avez raison, Google se soucie;).

— steffen

Vous avez tout à fait raison. Le problème est qu'avec le temps, il devient extrêmement difficile d'essayer de trouver des prédicteurs qui reflètent la causalité lorsque des adversaires vous contrarient. Si un prédicteur n'a pas une sorte d'explication causale (car ils sont rarement vraiment de nature causale), il est difficile de justifier quand les méchants évoluent et détruisent cette région de l'espace des prédicteurs.

— Iterator

2

@Brandon: Sans blague. Ceci est mieux illustré lorsque j'essaie de rechercher des événements récents ou à venir. De plus en plus fréquemment, je dois saisir l'année en cours ou même le MM-YYYY en cours (ou faire une recherche avancée) afin d'obtenir les pages pertinentes. C'est un compromis entre la structure des liens et la fraîcheur et Google se trompe sans plus d'aide de ma part. En fait, cela m'a conduit à Bing à quelques reprises, juste par irritation en essayant d'ignorer les anciennes pages. La même chose est vraie sur SO: les premières réponses semblent souvent obtenir plus de votes positifs que les réponses ultérieures, ce qui peut être plus correct. :)

— Iterator

5

Auteur de la plaisanterie ici.

Le commentaire a été partiellement inspiré par un discours de David Mease (chez Google), où il a dit, et je paraphrase, que les compagnies d'assurance automobile ne se soucient pas si être un homme cause plus d'accidents, tant qu'il est corrélé, ils doivent facturer plus. Il est, en fait, impossible de changer le sexe de quelqu'un dans une expérience, donc la cause n'a jamais pu être montrée.

De la même manière, Google n'a pas vraiment besoin de se soucier si la couleur rouge incite quelqu'un à cliquer sur une annonce, si elle est corrélée à plus de clics, ils peuvent facturer plus pour cette annonce.

Il a également été inspiré par cet article de Wired: The End of Theory: The Data Deluge Mets the Scientific Method Obsolete . Une citation:

"La philosophie fondatrice de Google est que nous ne savons pas pourquoi cette page est meilleure que celle-ci: si les statistiques des liens entrants le disent, cela suffit."

De toute évidence, Google a beaucoup de gens très intelligents qui connaissent la différence entre la causalité et la corrélation, mais dans leur cas, ils peuvent gagner beaucoup d'argent sans s'en soucier.

— Neil McGuigan
source

1

Pour élaborer ... Comme je l'ai mentionné, il y a beaucoup de gens chez Google qui s'en soucient vraiment, tout comme David Mease. (Btw, il n'est pas à Stanford, sauf s'il y a des nouvelles que j'ai ratées; peut-être avez-vous assisté à son cours de 2007?) Mais, vous avez raison, tout comme beaucoup de gens ne savent pas comment fonctionnent les moteurs à combustion interne, cela n'affecte pas leur capacité à conduire. Cependant, de bons ingénieurs et chercheurs en automobile améliorent le fonctionnement car ils le font. Même chose pour les ingénieurs et chercheurs de Google. Malheureusement, cet article Wired n'est pas la présentation la plus articulée de la thèse de Norvig.

— Iterator

Merci Neil pour le contexte. J'espère que cela ne vous dérange pas que j'utilise votre commentaire comme source d'inspiration pour une question.

— Jeromy Anglim

@ Jeromy, pas du tout

— Neil McGuigan

1

Je suis d'accord avec David : la différence est importante si vous avez l'intention d'intervenir, et Google peut tester les résultats des interventions en exécutant des expériences contrôlées. (Le calendrier optimal de telles expériences dépend de votre ensemble d'hypothèses causales, que vous apprenez des expériences précédentes ainsi que des données d'observation , donc les corrélations sont toujours utiles!)

Il y a une deuxième raison pour laquelle Google pourrait vouloir apprendre les relations causales. Les relations causales sont plus robustes aux interventions des autres acteurs. Les interventions ont tendance à être locales, elles peuvent donc changer une partie du réseau causal mais laisser tous les autres mécanismes causaux inchangés. En revanche, les relations prédictives peuvent échouer si un lien de causalité éloigné est rompu. Internet est en constante évolution, et Google devrait s'intéresser aux fonctionnalités de l'environnement en ligne qui sont les plus robustes à ces changements.

— Lizzie Silver
source