J'analyse les données de deux enquêtes que j'ai fusionnées ensemble:
Enquête auprès du personnel scolaire, pour les années 2005-06 et 2007-08
Enquête auprès des élèves des écoles, pour les années 2005-2006 à 2008-2009
Pour ces deux ensembles de données, j'ai des observations (au niveau des élèves ou du personnel) de 3 districts scolaires différents, chacun ayant des échantillons représentatifs par an dans leur district scolaire distinct.
Pour l'analyse, j'ai combiné les données sur les étudiants en deux périodes de 2 ans (2005-07 et 2007-09). Ensuite, j'ai ensuite «édité» chaque ensemble de données pour obtenir des pourcentages de personnel ou d'étudiants qui ont répondu aux questions en fonction des seuils (par exemple, s'ils ont répondu par l'affirmative, «d'accord», ou si l'étudiant a indiqué qu'il utilisait de l'alcool, etc.). Donc, lorsque j'ai fusionné les ensembles de données sur le personnel et les élèves, l'école est l'unité d'analyse, et je n'ai qu'une seule observation par école par période de 2 ans (étant donné que l'école ne manquait pas de données pour une période donnée) ).
Mon objectif est d'estimer les associations entre les réponses du personnel et celles des étudiants. Jusqu'à présent, mon plan était d'obtenir des coefficients de corrélation de Pearson entre toutes les variables (car ce sont toutes des réponses continues représentant des pourcentages) pour chaque district scolaire séparément les unes des autres (car cela élimine l'hypothèse de généralisabilité pour les autres districts de cet ensemble de données) . Pour ce faire, je ferais de toute façon la moyenne des données du district sur les deux années pour obtenir une seule observation par école.
Des questions:
- Est-ce un plan d'analyse approprié? Y a-t-il une autre méthode que je peux utiliser qui pourrait me fournir une meilleure inférence ou puissance?
- Si mon plan est approprié, dois-je obtenir des corrélations pondérées en fonction des effectifs scolaires (car il y a plus de petites écoles que de grandes qui contribueraient de manière disproportionnée aux coefficients de corrélation)?
J'ai demandé à l'administrateur des données à ce sujet, et il a mentionné que les principaux facteurs qui déterminent la nécessité de pondérer mes données sont de savoir si je pense que la taille de l'école affecte le degré de corrélation et si mon interprétation se fera au niveau de l'élève ou de l'école. Je pense que mon interprétation se fera au niveau de l'école (par exemple, "une école avec ce pourcentage de personnel répondant de cette manière est corrélée à ce pourcentage d'élèves répondant de cette façon ...").