Sur l'utilisation des corrélations pondérées dans les données d'enquête agrégées

J'analyse les données de deux enquêtes que j'ai fusionnées ensemble:

Enquête auprès du personnel scolaire, pour les années 2005-06 et 2007-08
Enquête auprès des élèves des écoles, pour les années 2005-2006 à 2008-2009

Pour ces deux ensembles de données, j'ai des observations (au niveau des élèves ou du personnel) de 3 districts scolaires différents, chacun ayant des échantillons représentatifs par an dans leur district scolaire distinct.

Pour l'analyse, j'ai combiné les données sur les étudiants en deux périodes de 2 ans (2005-07 et 2007-09). Ensuite, j'ai ensuite «édité» chaque ensemble de données pour obtenir des pourcentages de personnel ou d'étudiants qui ont répondu aux questions en fonction des seuils (par exemple, s'ils ont répondu par l'affirmative, «d'accord», ou si l'étudiant a indiqué qu'il utilisait de l'alcool, etc.). Donc, lorsque j'ai fusionné les ensembles de données sur le personnel et les élèves, l'école est l'unité d'analyse, et je n'ai qu'une seule observation par école par période de 2 ans (étant donné que l'école ne manquait pas de données pour une période donnée) ).

Mon objectif est d'estimer les associations entre les réponses du personnel et celles des étudiants. Jusqu'à présent, mon plan était d'obtenir des coefficients de corrélation de Pearson entre toutes les variables (car ce sont toutes des réponses continues représentant des pourcentages) pour chaque district scolaire séparément les unes des autres (car cela élimine l'hypothèse de généralisabilité pour les autres districts de cet ensemble de données) . Pour ce faire, je ferais de toute façon la moyenne des données du district sur les deux années pour obtenir une seule observation par école.

Des questions:

Est-ce un plan d'analyse approprié? Y a-t-il une autre méthode que je peux utiliser qui pourrait me fournir une meilleure inférence ou puissance?
Si mon plan est approprié, dois-je obtenir des corrélations pondérées en fonction des effectifs scolaires (car il y a plus de petites écoles que de grandes qui contribueraient de manière disproportionnée aux coefficients de corrélation)?

J'ai demandé à l'administrateur des données à ce sujet, et il a mentionné que les principaux facteurs qui déterminent la nécessité de pondérer mes données sont de savoir si je pense que la taille de l'école affecte le degré de corrélation et si mon interprétation se fera au niveau de l'élève ou de l'école. Je pense que mon interprétation se fera au niveau de l'école (par exemple, "une école avec ce pourcentage de personnel répondant de cette manière est corrélée à ce pourcentage d'élèves répondant de cette façon ...").

correlation survey multilevel-analysis

— Iris Tsui
source

J'imagine que c'est de l'histoire maintenant, mais juste au cas où ...

1) Oui, cela semble approprié. Votre question de recherche doit être "les attitudes / comportements des enseignants dans une école sont-ils liés aux attitudes / comportements des élèves dans cette école?" Si telle est votre question, une école est l'unité d'analyse appropriée (et il n'y aurait aucun moyen de faire correspondre les enseignants individuels aux élèves de toute façon).

Je voudrais simplement ajouter des mises en garde sur l'utilisation du coefficient de corrélation de Pearson, sans rapport avec la question de l'unité d'analyse ou de la stratégie d'échantillonnage. Le coefficient de corrélation ne peut pas détecter les relations non linéaires, peut être trompeur à interpréter, est facilement déformé par quelques valeurs aberrantes, et l'inférence classique basée sur elle dépend de la normalité (qui ne tiendra pas exactement avec vos données de proportion, bien qu'elle puisse être une approximation raisonnable). Au minimum, j'utiliserais soigneusement des méthodes graphiques pour vérifier qu'il s'agit d'une approche raisonnable et qu'il n'y a pas de meilleure façon de déduire la relation entre les deux variables.

2) Je ne pense pas que vous ayez besoin de pondérer les données mais j'essaierais certainement (et j'espère que cela ne changera pas les résultats). Mais je pondérerais par la taille de votre échantillon à l'école, pas par la taille des inscriptions. La raison en serait une estimation plutôt que votre unité d'analyse ou tout besoin de «pondération par rapport à la population». Vous ne disposez que d'une estimation des réponses réelles des enseignants et des élèves dans chaque école, à partir de votre échantillon fini. Dans les écoles où vous disposiez d'un échantillon plus large, vous avez plus confiance en votre estimation, et il serait donc bon qu'elles soient prises plus au sérieux pour ajuster votre corrélation ou votre régression linéaire.

— Peter Ellis
source

Merci pour votre réponse confirmative ainsi que vos conseils. J'ai fini par ne pas utiliser ce type d'analyse pour diverses raisons (temps et ressources, inclus) et, à la place, j'ai présenté les choses de manière descriptive uniquement. J'étais mal à l'aise d'essayer de tirer des conclusions liées à la corrélation sur la tendance en utilisant seulement deux points dans le temps, alors j'ai opté pour la route sûre. Malheureusement, cela signifie que les données n'ont pas grand-chose à dire sur mon objectif de recherche. Tant pis.

— Iris Tsui