Comment mesurer le «bien-arrondi» des contributeurs SE?


12

Stack Exchange, comme nous le savons tous, est une collection de sites de questions / réponses avec des sujets diversifiés. En supposant que chaque site est indépendant les uns des autres, compte tenu des statistiques d'un utilisateur, comment calculer sa "rondeur" par rapport au gars suivant? Quel est l'outil statistique à utiliser?

Pour être honnête, je ne sais pas très bien comment définir mathématiquement la "rondeur", mais elle doit avoir les caractéristiques suivantes:

  1. Toutes choses étant égales par ailleurs, plus un utilisateur a de représentants, plus il est équilibré
  2. Toutes choses étant égales par ailleurs, plus un utilisateur participe à des sites, plus il est complet.
  3. Que la réponse ou la question n'affecte pas la rondeur

Comment définiriez-vous "l'arrondi" dans le contexte SE, tout d'abord?
JM n'est pas statisticien

@JM, je ne sais pas, c'est pourquoi j'espère que la communauté contribuera à étoffer un peu plus les concepts.
Graviton

1
Au risque de ressembler à l'un des policiers PC à genoux - Soyons inclus les femmes qui visitent notre site. @Graviton, Toutes vos références concernent des hommes.
rolando2

L'arrondi défini par un ID utilisateur ne vous renseigne pas sur l'arrondi d'un contributeur , car un contributeur peut avoir différents ID utilisateur pour différentes SE. Certains ID utilisateur peuvent également être utilisés par plusieurs contributeurs (par exemple, des partenaires qui partagent un compte).
Alexis

Réponses:


7

Vous devez également tenir compte de la similitude entre les sites. Quelqu'un qui participe à StackOverflow et Seasoned Advice est plus bien équilibré que quelqu'un qui participe à SO et CrossValidated, qui est à son tour (je dirais) plus bien équilibré que quelqu'un qui participe à SO et à des programmeurs . Il existe sans aucun doute de nombreuses façons de le faire, mais vous pouvez vérifier les enregistrements qui se chevauchent pour en avoir une idée.


1
@Matt Parker, bons points - Si le représentant fait partie de la métrique, je pense également que vous devez regarder comment le représentant a été gagné. Une personne qui a obtenu son représentant de petits gains sur un grand nombre de questions / réponses serait probablement plus bien arrondie qu'une personne qui a gagné le même représentant sur une seule question qui a recueilli une tonne de votes positifs.
DQdlM

3
@Kenny C'est un bon point et je pense que la façon dont vous l'avez dit est correcte - mais je pense que la plupart des questions et réponses les plus votées sont souvent moins révélatrices de l'expertise, alors que les bonnes réponses à des questions techniques vraiment sérieuses ont souvent votes très bas.
Matt Parker,

1
Découvrez les réponses de whuber, par exemple. Ses réponses sont uniformément excellentes, alors qu'est-ce qui différencie ses réponses très bien notées de ses 1 votants? Quand je regarde le premier, je vois de superbes réponses à des questions que je comprends; à ce dernier, de superbes réponses à des questions que je ne commence même pas à crier. Les réponses à faible vote peuvent donc être révélatrices d'une spécialisation approfondie (mais notez: si vous êtes curieux de savoir à quoi ressemble un utilisateur de SE bien équilibré, c'est tout ).
Matt Parker,

1
En fait, @Graviton, il pourrait être judicieux de rechercher des utilisateurs multisites que vous considéreriez comme bien équilibrés et de voir comment ils fonctionnent dans vos différentes mesures.
Matt Parker,

1
@KennyPeanuts, pour compléter le point de @ Matt ci-dessus, il semble également y avoir un nombre appréciable d'utilisateurs sur les sites SE qui répondent à un nombre énorme de questions, tout en générant peu de votes positifs. Cela n'est généralement pas indicatif de l'expertise ou de la rondeur non plus. (Cependant, il s'agit de l' une des stratégies les plus simples pour obtenir une "réputation").
cardinal

6

EXEMPLE: disons qu'il y a trois sites, et nous voulons comparer l'arrondi des utilisateurs A, B, C. Nous écrivons la réputation des utilisateurs sur les trois sites sous forme vectorielle:

Utilisateur A: [23, 23, 0]

Utilisateur B: [15, 15, 0]

Utilisateur C: [10, 10, 10]

Nous considérerions A plus équilibré que B (leur réputation est répartie uniformément sur deux sites, mais A a une réputation plus globale). En outre, nous considérerions C plus bien arrondi que B (ils ont la même réputation totale, mais C a une répartition égale sur plus de sites.) Il est indécis si A doit être considéré comme plus bien arrondi que C, ou vice versa. .

Soit respectivement , , les vecteurs de réputation ci-dessus.xAxBxC

Nous voulons mesurer la «bien-arrondi» d'un utilisateur en fonction de son vecteur de réputation . Par ce qui précède, nous voudrions que notre fonction satisfasse , et .f(x)ff(xA)>f(xB)f(xC)>f(xB)

Tout qui est concave et de plus en plus fera l'affaire.f(x)

La «norme fractionnaire» est deux exemples courants de fonctions convexes

f([x1,...,xm])=ixip

pour .0<p<1

En prenant , nous calculonsp=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

Selon la norme , l'utilisateur A serait considéré comme le plus complet des trois, avec une marge étroite sur l'utilisateur C.1/2

Un autre choix pour est l' entropie de Shannon (mise à l'échelle)f

f([x1,...,xm])=ixilog(xi/c).

où .c=ixi

Si nous prenons pour l'entropie de Shannon à l'échelle, alors nous calculonsf

f ( x B ) = 30 log ( 2 ) 20,8 f ( x C ) = 30 log ( 3 ) 33,0

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Mesuré en fonction de l'entropie de Shannon à l'échelle, nous dirions alors que C est le plus arrondi des trois, et A le deuxième plus arrondi.

EDIT: J'ai initialement dit que la fonction devait être convexe; l'inverse est vrai.f(x)

EDIT2: Ajout d'un exemple à la lumière du commentaire de whuber.


À propos de la modification: il est difficile de savoir si vous avez raison ou non, car il n'y a rien dans votre réponse qui décrit le rôle que joue : vous ne l'utilisez jamais et vous ne dites pas comment il serait appliqué dans ce problème. f
whuber

(+1) Merci pour la modification: cela rend l'idée beaucoup plus claire. Vous voudrez peut-être faire en sorte que l'exemple corresponde aux nombres: il semble que l'exemple concerne trois utilisateurs et trois sites plutôt que quatre de chacun. BTW, comment déterminez-vous les sites à utiliser? Personne n'est actif sur tous, voire la majorité, des sites. C'est un problème parce que certaines personnes obtiennent 1 point de répétition pour commencer et d'autres 101. Si nous insistons sur le fait que soit constant dans l'intervalle pour y faire face, alors il est impossible que soit concave et augmente pour des valeurs plus grandes ! [ 1 , 101 ] ff[1,101]f
whuber

La norme fractionnelle n'est pas définie lorsque tout x_i <0. L'entropie de Shannon échoue lorsque tout x_i / c ≤ 0. Il n'est pas logique qu'une mesure de bien arrondi explose soudainement lorsque certains x_i passent de 0 à -𝜀.
200_success

4

C'est une question vraiment très intéressante (en effet, je suis un peu amoureux de l'idée de modéliser les sites d'échange de pile en général).

Sur la question de l'arrondi, une façon d'évaluer cela serait à travers les balises auxquelles certains utilisateurs ont tendance à répondre, et leur distribution sur les sites. Des exemples peuvent rendre cela plus clair.

Je suis membre de TeX, StackOverflow, CrossValidated et AskUbuntu. Maintenant, je ne contribue vraiment qu'à ici et à StackOverflow, et seulement à R sur Stackoverflow. Donc, pour bien définir la rondeur, je regarderais a) la quantité de balises que deux sites ont en commun (pour définir la similitude entre les sites) et la mesure dans laquelle un utilisateur répond aux questions sur les sites qui ont peu ou pas de balises en commun.

Si, par exemple, quelqu'un contribue aux balises Python sur StackOverflow et la cuisine, cette personne est plus complète que quelqu'un qui répond aux questions des logiciels statistiques (par exemple) sur les questions de débordement et de statistiques ici.

J'espère que cela est quelque peu utile.


4
(+1) Quelqu'un qui contribue aux balises Python à la fois sur SO et sur la cuisine a des goûts exotiques dans les aliments :-) J'ai entendu dire qu'il avait le goût du poulet.
whuber

3

Si vous définissez «bien-arrondi» comme «contribuant à de nombreux sites d'échange de piles», je calculerais une mesure de contribution par site. Vous pouvez utiliser le nombre total de messages, ou la moyenne des messages par jour, ou peut-être la réputation. Ensuite, examinez la distribution de cette métrique sur tous les sites et calculez son asymétrie d'une manière qui a du sens.

En d'autres termes, une personne «bien équilibrée» serait une personne qui contribue à de nombreux sites différents, tandis qu'une personne «mal arrondie» serait une personne qui contribue principalement à un site. Vous pouvez encore améliorer cela en adaptant votre métrique au total d'un utilisateur sur tous les sites. c'est-à-dire qu'une personne qui a beaucoup contribué à de nombreux sites différents devrait être considérée comme plus équilibrée qu'une personne qui n'a rien contribué à aucun des sites. Une personne qui n'a jamais utilisé SE n'est pas très bien arrondie!


1

Déjà de nombreuses bonnes réponses, alors pourquoi une de plus? C'est principalement pour attirer l'attention sur les idées intéressantes discutées ici au The n-Category Café . Alors que la diversité en écologie (et ailleurs) ne porte principalement que sur l'abondance, il convient également de voir dans quelle mesure les différentes espèces sont similaires / différentes.

En représentant les espèces (ou autre chose, comme les sites SE ...) comme des points dans un espace métrique, cela conduit à généraliser l' entropie aux espaces métriques, voir par exemple L'entropie maximale d'un espace métrique par Tom Leinster, Emily Roff . Les mêmes idées pourraient être utilisées dans les sites SE en regardant les balises comme des points dans un espace métrique.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.