Existe-t-il un moyen de détecter les biais des moteurs de recherche?

Les moteurs de recherche sont de plus en plus utilisés comme gardiens de l'information, mais les critères utilisés par les moteurs de recherche pour classer les résultats sont opaques pour les utilisateurs. Comment les utilisateurs peuvent-ils être sûrs que leurs résultats ne sont pas biaisés ou falsifiés d'une manière ou d'une autre afin de susciter un certain intérêt au détriment de la qualité des résultats de recherche?

Les gouvernements exigent régulièrement que les moteurs de recherche suppriment ou réduisent le classement des sites Web jugés politiquement indésirables. Les entreprises peuvent payer des fournisseurs pour augmenter certains résultats par rapport à d'autres afin d'augmenter leurs revenus. Les pare-feu peuvent se mêler des résultats avant qu'ils ne soient retransmis aux utilisateurs.

Même des changements apparemment anodins dans des algorithmes de classement qui pourraient ne pas apparaître à première vue semblent être biaisés, pourraient en fait être conçus de manière sournoise pour nuire aux sites Web qui partagent certains attributs communs (sans rapport avec la qualité réelle).

Est-il possible de détecter les biais des moteurs de recherche, par exemple en surveillant les résultats sur une période de temps et en évaluant si une "variable cachée" (peut-être une affiliation politique) est un facteur déterminant dans le changement de classement des sites Web?

Un fournisseur sournois peut progressivement réduire au fil du temps le classement des sites Web ciblés (et peut-être aussi des sites Web aléatoires pour distraire les utilisateurs). Quelles sont les limites du degré de biais qu'un fournisseur peut introduire sans détection? Ou est-il possible de toujours cacher une telle interférence en sélectionnant sournoisement des critères de classement pondérés qui produisent incidemment le résultat escompté (par le biais de "l'espionnage des données").

Est-ce que cela change si les critères de classement sont rendus publics? Avons-nous besoin d'ouvrir les critères de recherche des moteurs de recherche?

Cela me rappelle le résultat que détecter si un instrument financier complexe tel qu'un CDO a été falsifié par le vendeur équivaut à résoudre le problème du sous-graphique le plus dense:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Merci!

ds.algorithms data-mining

— main.
source

c'est une question cool, mais je la réviserais en m'assurant de ne poser qu'une seule question liée à la théorie. Le plus évident est d'en faire une demande de référence et de demander "quelqu'un a-t-il déjà regardé cela?". Si vous êtes sûr que personne ne l'a fait, alors quelque chose comme "comment cela peut-il être modelé formellement?" pourrait être une bonne question. Si vous gardez trop de questions, certaines d'entre elles étant potentiellement non liées à la théorie, cela pourrait être fermé comme "pas une vraie question".

— Artem Kaznatcheev

Notez que rendre un schéma de classement public l'ouvre aux attaques des spammeurs. Une variante intéressante serait: "existe-t-il un équivalent" clé publique "pour les classements"

— Suresh Venkat

@SureshVenkat "rendre public un système de classement l'ouvre pour attaquer" semble que vous suggérez la <s> sécurité </s> impartialité à travers l'obscurité;).

— Artem Kaznatcheev

non, mais c'est pourquoi j'ai posé des questions sur les versions à clé publique des systèmes de classement.

— Suresh Venkat

Comme aucune des parties participant au processus de recherche n'est censée être un utilisateur malveillant, une solution normale consiste à modéliser le processus comme un jeu avec des utilisateurs égoïstes. S'il est modélisé correctement, nous pouvons savoir s'il est avantageux pour les moteurs de recherche de faire une telle chose ou non. Ensuite, nous pouvons concevoir un mécanisme pour empêcher une telle altération.

— Helium

C'est évidemment une question très ouverte, mais pour rester sur le sujet, voici une approche de la théorie CS à l'idée de «justice» et comment la faire respecter.

"L'équité par la sensibilisation" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Aaron Roth
source