Voici une possibilité.
L'évaluation des performances des enseignants a toujours été difficile. Une partie de cette difficulté tient au fait que différents élèves ont différents niveaux d'intérêt pour une matière donnée. Si un étudiant donné obtient un A, cela ne signifie pas nécessairement que l'enseignement était excellent - cela peut plutôt signifier qu'un étudiant très doué et intéressé a fait de son mieux pour réussir même en dépit d'une mauvaise qualité d'enseignement. À l'inverse, un élève obtenant un D ne signifie pas nécessairement que l'enseignement était médiocre - il peut plutôt signifier qu'un élève désintéressé a échoué malgré les meilleurs efforts de l'enseignant pour éduquer et inspirer.
La difficulté est aggravée par le fait que la sélection des étudiants (et donc le niveau d'intérêt des étudiants) est loin d'être aléatoire. Il est courant que les écoles mettent l'accent sur une matière (ou un groupe de matières) par rapport aux autres. Par exemple, une école peut privilégier les matières techniques aux humanités. Les élèves de ces écoles sont probablement tellement intéressés par les domaines techniques qu'ils recevront une note de passage, même avec le pire professeur possible. Ainsi, la fraction des élèves qui réussissent les mathématiques n'est pas une bonne mesure de l'enseignement - nous nous attendons à ce que les bons enseignants réussissent beaucoup mieux que ceux qui ont tellement envie d'apprendre. En revanche, ces mêmes élèves peuvent ne pas s'intéresser du tout aux arts. Il serait difficile d'attendre, même du meilleur enseignant, que tous les élèves obtiennent un A.
Une autre difficulté est que tout le succès dans une classe donnée n'est pas directement attribuable à l'enseignant de cette classe. Au contraire, le succès peut être dû au fait que l'école (ou tout le district) a créé la motivation et le cadre de réussite.
Pour prendre en compte toutes ces difficultés, les chercheurs ont créé un modèle qui évalue la «valeur ajoutée» de l'enseignant. En substance, le modèle prend en compte les caractéristiques intrinsèques de chaque élève (niveau général d'intérêt et de réussite dans l'apprentissage), ainsi que les contributions de l'école et du district à la réussite des élèves, et prédit les notes des élèves qui seraient attendues avec une «moyenne» l'enseignement dans cet environnement. Le modèle compare ensuite les notes réelles aux notes prévues et, sur la base de celui-ci, décide si l'enseignement était adéquat compte tenu de toutes les autres considérations, mieux qu'adéquat ou pire. Bien que le modèle puisse sembler complexe à un non-mathématicien, il est en fait assez simple et standard. Les mathématiciens utilisent des modèles similaires (et encore plus complexes) depuis des décennies.
Pour résumer, la supposition de Mme Isaacson est correcte. Même si 65 de ses 66 élèves ont obtenu de bons résultats au test d'État, ils auraient obtenu le même résultat même si un chien avait été leur professeur. Un bon enseignant réel permettrait à ces élèves d'obtenir non seulement des «compétences», mais en fait de «bons» scores sur le même test.
À ce stade, je pourrais mentionner certaines de mes préoccupations concernant le modèle. Par exemple, les développeurs de modèles affirment qu'il résout certaines des difficultés liées à l'évaluation de la qualité de l'enseignement. Ai-je suffisamment de raisons de les croire? Les quartiers à faible revenu auront des scores de «district» et «école» plus faibles. Disons qu'un quartier aura un score attendu de 2,5. Un enseignant qui obtiendra une moyenne de 3 obtiendra une bonne évaluation. Cela peut inciter les enseignants à viser le score de 3 plutôt qu'un score de, disons, 4 ou 5. En d'autres termes, les enseignants viseront la médiocrité plutôt que la perfection. Voulons-nous que cela se produise? Enfin, même si le modèle est mathématiquement simple, il fonctionne d'une manière très différente de la façon dont fonctionne l'intuition humaine. En conséquence, nous n'avons aucun moyen évident de valider ou de contester le modèle » s décision. Le malheureux exemple de Mme Isaacson illustre à quoi cela peut conduire. Voulons-nous dépendre aveuglément de l'ordinateur dans quelque chose d'aussi important?
Notez qu'il s'agit d'une explication à un profane. J'ai évité plusieurs questions potentiellement controversées ici. Par exemple, je ne voulais pas dire que l'on s'attend à ce que les districts scolaires à faible revenu démographique obtiennent de moins bons résultats, car cela ne semblerait pas bon pour un profane.
De plus, j'ai supposé que l'objectif était en fait de donner une description assez juste du modèle. Mais je suis presque sûr que ce n'était pas le but du NYT ici. Donc, au moins une partie de la raison pour laquelle leur explication est mauvaise est le FUD intentionnel, à mon avis.