"Pas de méthodes graphiques" est en quelque sorte un gros handicap, mais ... voici quelques idées étranges. Les deux traitent les notes comme continues, ce qui est en quelque sorte une faiblesse conceptuelle, et probablement pas la seule ...
Kurtosis
- Le kurtosis de {1,1,1,5,5,5} = 1. Vous n'obtiendrez pas un kurtosis inférieur avec un combo de 1 à 5 notes.
- Le kurtosis de {1,2,3,4,5} = 1,7. Plus bas signifie des valeurs plus extrêmes; plus élevé signifie plus moyen.
- Cela ne fonctionnera pas si la distribution n'est pas à peu près symétrique. Je vais démontrer ci-dessous.
Régression binomiale négative
Avec un bloc de données comme celui-ci: Ajuster le modèle F r e q u e n c y ∼ R a t i n g + √
R a t i n g12345F r e qu e n c y3115sept937
utilisant une régression binomiale négative. Le
√F r e qu e n c y ∼ R a t i n g + R a t i n g------√ coefficient
R a t i n g doit être proche de zéro si les notes sont
uniformément distribuées, positif s'il y a proportionnellement plus de valeurs moyennes (cf.
distribution binomiale), ou négatif avec des distributions polarisées comme celle ci-dessus, pour lesquelles le coefficient est - 11.8.
R a t i n g------√
FWIW, voici le code r avec lequel j'ai joué:
x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y) #Frequencies
require(moments);kurtosis(x);kurtosis(y) #Kurtosis
Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X)) #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y)) #Negative binomial of uniform data
Je ne peux pas résister à jeter dans un complot ...
require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')
Le R a t i n g------√
Edit: Je viens de voir cette question annoncée dans la barre latérale:
et quand j'ai cliqué, je l'ai vue dans les Hot Network Questions se reliant à elle-même, comme cela arrive parfois ,
j'ai donc pensé que cela mériterait d'être revu d'une manière plus généralement utile. J'ai décidé d'essayer mes méthodes sur les avis clients Amazon pour le t-shirt à manches courtes The Mountain Three Wolf Moon :
R a t i n gF r e qu e n c y1208254389419852273
βR a t i n g√= - 19,1
σ2F r e qu e n c yT-shirt à manches courtes The Mountain Three Wolf Moon= 1,31
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))