Bien que je me sente un peu penaud contredisant à la fois un "texte respecté" et un autre utilisateur de CV, il me semble que la formule Spearman-Brown n'est pas affectée par des éléments de difficulté différente. Certes, la formule de Spearman-Brown est généralement dérivée en supposant que nous avons des éléments parallèles , ce qui implique (entre autres) que les éléments ont la même difficulté. Mais il s'avère que cette hypothèse n'est pas nécessaire; il peut être assoupli pour permettre des difficultés inégales, et la formule Spearman-Brown tiendra toujours. Je le démontre ci-dessous.
Rappelons que dans la théorie classique des tests, une mesure est supposée être la somme d'une composante "vrai score" et d'une composante d'erreur , c'est-à-dire
avec et non corrélés. L'hypothèse des éléments parallèles est que tous les éléments ont les mêmes scores réels, ne différant que par leurs composantes d'erreur, bien que ceux-ci soient supposés avoir une variance égale. En symboles, pour toute paire d'éléments et ,
XTE
X=T+E,
TEXX′T=T′var(E)=var(E′).
Voyons ce qui se passe lorsque nous assouplissons la première hypothèse, de sorte que les éléments peuvent différer dans leurs difficultés, puis dérivons la fiabilité d'un score de test total sous ces nouvelles hypothèses. Plus précisément, supposons que les vrais scores puissent différer d'une constante additive, mais les erreurs ont toujours la même variance. Dans les symboles,
Toutes les différences de difficulté sont capturées par la constante additive. Par exemple, si , alors les scores sur ont tendance à être supérieurs aux scores sur , de sorte que est "plus facile" que . Nous pourrions les appeler
essentiellement parallèlesT=T′+c′var(E)=var(E′).
c′>0XX′XX′par analogie avec l'hypothèse d'une "équivalence tau essentielle" qui assouplit le modèle équivalent tau d'une manière similaire.
Maintenant, dériver la fiabilité d'un formulaire de test de ces éléments. Considérons un test composé de éléments essentiellement parallèles, dont la somme donne la note du test. La fiabilité est, par définition, le rapport de la vraie variance du score à la variance du score observé. Pour la fiabilité des éléments individuels, il résulte de la définition du parallélisme essentiel qu'ils ont la même fiabilité, que nous désignons par , avec étant la vraie variance du score et la variance d'erreur. Pour la fiabilité du score total du test, nous examinons d'abord la variance du score total du test, qui est
kρ=σ2T/(σ2T+σ2E)σ2Tσ2E Tσ 2 T σ 2 E k 2 σ 2 T
var(∑i=1kTi+Ei)=var(∑i=1kT+ci+Ei)=k2σ2T+kσ2E,
où (sans indice) est un vrai score arbitraire vers lequel les vrais scores de tous les éléments peuvent être décalés via leurs termes constants, est la vraie variance du score, et est la variance d'erreur. Notez que les termes constants disparaissent! C'est la clé. Ainsi, la fiabilité du score total du test est
Tσ2Tσ2Ek2σ2Tk2σ2T+kσ2E=kσ2Tkσ2T+σ2X−σ2T=kρ1+(k−1)ρ,
qui est juste la formule classique de Spearman-Brown, inchangée. Ce que cela montre, c'est que même en faisant varier la «difficulté» des éléments, définis comme leurs scores moyens, la formule de Spearman-Brown est toujours valable.
@JeremyMiles soulève des points intéressants et importants sur ce qui peut se produire lorsque nous augmentons la durée du test "dans le monde réel", mais au moins selon les hypothèses idéalisées de la théorie classique des tests, les variations de difficulté des éléments n'ont pas d'importance pour la fiabilité d'un forme de test (en contraste frappant avec les hypothèses de la théorie moderne de la réponse aux objets!). Ce même raisonnement de base est aussi la raison pour laquelle nous parlons généralement d' équivalence tau essentielle plutôt que d'équivalence tau, car la plupart de tous les résultats importants valent pour le cas le plus clément où les difficultés d'items (c'est-à-dire les moyens) peuvent différer.