Récemment, j'avais fait une analyse des effets de la réputation sur les votes positifs (voir le blog ), et par la suite, j'avais quelques questions sur une analyse et des graphiques éventuellement plus éclairants (ou plus appropriés).
Donc, quelques questions (et n'hésitez pas à répondre à quelqu'un en particulier et à ignorer les autres):
Dans son courant en incarnation, je ne voulais pas centrer le numéro de poste. Je pense que cela donne l'apparence fausse d'une corrélation négative dans le nuage de points, car il y a plus de messages vers l'extrémité inférieure du nombre de messages (vous voyez que cela ne se produit pas dans le panneau Jon Skeet, seulement chez les utilisateurs mortels panneau). Ne convient-il pas de ne pas centrer le numéro de poste (puisque je veux dire centré le score par score moyen par utilisateur)?
Il devrait être évident à partir des graphiques que le score est très asymétrique à droite (et le centrage moyen n'a pas changé cela). Lors de l'ajustement d'une ligne de régression, j'ai ajusté à la fois des modèles linéaires et un modèle utilisant les erreurs de sable blanc Huber (via
rlm
dans le package MASS R ) et cela n'a fait aucune différence dans les estimations de pente. Aurais-je dû envisager une transformation des données au lieu d'une régression robuste? Notez que toute transformation devrait prendre en compte la possibilité de scores 0 et négatifs. Ou aurais-je dû utiliser un autre type de modèle pour les données de comptage au lieu d'OLS?Je pense que les deux derniers graphiques, en général, pourraient être améliorés (et sont également liés à des stratégies de modélisation améliorées). À mon avis (blasé), je soupçonnerais que si les effets de réputation sont réels, ils se réaliseraient très tôt dans l'histoire des affiches (je suppose que si cela est vrai, ils peuvent être reconsidérés "vous avez donné d'excellentes réponses alors maintenant je vais voter pour tous vos affiche des effets "au lieu de" réputation par score total "). Comment puis-je créer un graphique pour démontrer si cela est vrai, tout en tenant compte du sur-tracé? J'ai pensé que peut-être un bon moyen de démontrer cela serait d'adapter un modèle de formulaire;
où est le (le même que dans les diagrammes de dispersion actuels), X 1 est le , et Z 1 ⋯ Z k sont des variables fictives représentant une plage arbitraire de numéros de poste (par exemplescore - (mean score per user)
post number
est égalsi le numéro de poste est, Z 2 est égal àsi le numéro de poste estetc.). β 0 et ϵ sont respectivement le grand terme d'interception et d'erreur. Ensuite, je voudrais juste examiner le γ estimé1
1 through 25
1
26 through 50
des pentes pour déterminer si les effets de réputation sont apparus tôt dans l'historique des affiches (ou les afficher graphiquement). Est-ce une approche raisonnable (et appropriée)?
Il semble populaire d'adapter un certain type de ligne de lissage non paramétrique à des diagrammes de dispersion comme ceux-ci (tels que le lœss ou les splines), mais mon expérimentation avec des splines n'a rien révélé d'éclairant (toute preuve d'effets positifs au début de l'histoire de l'affiche était légère et tempéramentale) au nombre de splines que j'ai incluses). Puisque j'ai l'hypothèse que les effets se produisent tôt, mon approche de modélisation est-elle plus raisonnable que les splines?
Notez également que même si j'ai à peu près dragué toutes ces données, il y a encore beaucoup d'autres communautés à examiner (et certaines comme le superutilisateur et le défaut de serveur ont des échantillons de même taille à partir desquels), il est donc tout à fait raisonnable de suggérer à l'avenir analyse que j'utilise un échantillon hold-out pour examiner toute relation.