J'ai un ensemble de données au format suivant.
Il y a un cancer binaire / pas de cancer. Chaque médecin de l'ensemble de données a vu chaque patient et a donné un jugement indépendant sur le fait que le patient soit atteint ou non d'un cancer. Les médecins donnent ensuite leur niveau de confiance sur 5 que leur diagnostic est correct, et le niveau de confiance est affiché entre parenthèses.
J'ai essayé différentes façons d'obtenir de bonnes prévisions de cet ensemble de données.
Cela fonctionne assez bien pour moi de simplement faire la moyenne parmi les médecins, en ignorant leur niveau de confiance. Dans le tableau ci-dessus, cela aurait produit des diagnostics corrects pour le patient 1 et le patient 2, bien qu'il aurait dit à tort que le patient 3 a un cancer, car par une majorité de 2-1 les médecins pensent que le patient 3 a un cancer.
J'ai également essayé une méthode dans laquelle nous échantillonnons au hasard deux médecins, et s'ils ne sont pas d'accord, le vote décisif revient au médecin le plus confiant. Cette méthode est économique dans la mesure où nous n'avons pas besoin de consulter beaucoup de médecins, mais elle augmente également considérablement le taux d'erreur.
J'ai essayé une méthode connexe dans laquelle nous sélectionnons au hasard deux médecins, et s'ils ne sont pas d'accord, nous en sélectionnons deux de plus au hasard. Si un diagnostic est avancé par au moins deux «votes», nous résolvons les choses en faveur de ce diagnostic. Sinon, nous continuons d'échantillonner plus de médecins. Cette méthode est assez économique et ne fait pas trop d'erreurs.
Je ne peux pas m'empêcher de sentir que je manque une façon plus sophistiquée de faire les choses. Par exemple, je me demande s'il existe un moyen de diviser l'ensemble de données en ensembles de formation et de test, et de trouver un moyen optimal de combiner les diagnostics, puis de voir comment ces poids fonctionnent sur l'ensemble de test. Une possibilité est une sorte de méthode qui me permet de réduire le poids des médecins qui ont continué à faire des erreurs sur l'ensemble d'essai, et peut-être des diagnostics de poids élevé qui sont faits avec une confiance élevée (la confiance est en corrélation avec l'exactitude de cet ensemble de données).
J'ai différents jeux de données correspondant à cette description générale, donc la taille des échantillons varie et tous les jeux de données ne concernent pas les médecins / patients. Cependant, dans cet ensemble de données particulier, il y a 40 médecins, qui ont chacun vu 108 patients.
EDIT: Voici un lien vers certaines des pondérations qui résultent de ma lecture de la réponse de @ jeremy-miles.
Les résultats non pondérés figurent dans la première colonne. En fait, dans cet ensemble de données, la valeur de confiance maximale était de 4 et non de 5, comme je l'ai dit par erreur plus tôt. Ainsi, en suivant l'approche de @ jeremy-miles, le score non pondéré le plus élevé qu'un patient pourrait obtenir serait de 7. Cela signifierait que littéralement chaque médecin a affirmé avec un niveau de confiance de 4 que ce patient avait un cancer. Le score non pondéré le plus bas qu'un patient puisse obtenir est de 0, ce qui signifie que chaque médecin a affirmé avec un niveau de confiance de 4 que ce patient n'avait pas de cancer.
Pondération par Alpha de Cronbach. J'ai trouvé dans SPSS qu'il y avait un alpha global de Cronbach de 0,9807. J'ai essayé de vérifier que cette valeur était correcte en calculant l'Alpha de Cronbach de manière plus manuelle. J'ai créé une matrice de covariance des 40 médecins que je colle ici . Ensuite, d'après ma compréhension de la formule Alpha de Cronbach où est le nombre d'items (ici les médecins sont les 'items') j'ai calculé en additionnant tous les éléments diagonaux dans la matrice de covariance, et en additionnant tous les éléments dans la matrice de covariance. J'ai ensuite J'ai ensuite calculé les 40 résultats différents de Cronbach Alpha qui se produiraient lorsque chaque médecin serait retiré du base de données. J'ai évalué à zéro tout médecin qui avait contribué négativement à l'Alpha de Cronbach. J'ai trouvé des poids pour les médecins restants proportionnels à leur contribution positive à l'Alpha de Cronbach.
Pondération par total des corrélations d'articles. Je calcule toutes les corrélations totales des éléments, puis pondère chaque médecin proportionnellement à la taille de leur corrélation.
Pondération par les coefficients de régression.
Une chose dont je ne suis toujours pas sûr est de savoir quelle méthode fonctionne "mieux" que l'autre. Auparavant, j'avais calculé des choses comme le score de compétence Peirce, qui est approprié pour les cas où il y a une prédiction binaire et un résultat binaire. Cependant, j'ai maintenant des prévisions allant de 0 à 7 au lieu de 0 à 1. Dois-je convertir tous les scores pondérés> 3,50 en 1 et tous les scores pondérés <3,50 en 0?
Cancer (4)
à la prédiction d'aucun cancer avec une confiance maximale No Cancer (4)
. Nous ne pouvons pas dire cela No Cancer (3)
et ce Cancer (2)
sont les mêmes, mais nous pourrions dire qu'il y a un continuum, et les points médians de ce continuum sont Cancer (1)
et No Cancer (1)
.
No Cancer (3)
c'est le casCancer (2)
? Cela simplifierait un peu votre problème.