Je me spécialise en sciences, et ma connaissance des statistiques est plutôt superficielle.
Problème
J'ai dû trouver un ensemble de données et l'analyser au mieux de mes capacités en tant qu'affectation pour mon cours de statistique. Ce n'est plus une tâche, j'ai juste besoin d'aide pour interpréter pourquoi j'ai mal fait mon analyse et ce que j'aurais dû faire à la place.
J'ai utilisé un ensemble de données catégoriques des taux d'emploi en Nouvelle-Zélande, en prévoyant de l'organiser dans un tableau de contingence 2x2 et d'utiliser le test du chi carré de Pearson et le test exact de Fisher pour tester si le sexe est corrélé à l'emploi.
Ce que je veux répondre
- Comprenez pourquoi je ne peux pas utiliser le test du chi carré et le test exact de Fisher pour ce problème et découvrez ce que j'aurais dû utiliser à la place. "Odds-ratio en fonction du temps", je suppose? Des liens utiles sur la façon de faire cela, parfaitement dans R?
- Comprendre le commentaire de "corrélation séquentielle" concernant la première partie de la mission et ce que j'aurais dû faire exactement.
Façon de m'aider # 1 (plus court)
Voilà à quoi ressemblent nos données (basées sur un recensement):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
J'ai fait un test du chi carré et un test exact de Fisher dans R, en supposant que la valeur de p obtenue me dira la probabilité d'une telle répartition des emplois (ou un plus extrême) étant donné que le zéro est vrai (que les hommes et les femmes chances égales d’obtenir un emploi). J'ai obtenu une très petite valeur p, et le test de Fisher m'a donné un rapport de cotes de 1,16, ce qui signifie qu'il existe une corrélation, et en particulier les hommes sont 16% plus susceptibles de trouver un emploi en NZ.
Cependant, selon mon professeur, j'ai utilisé ces tests de manière inappropriée. Je ne comprenais pas vraiment pourquoi, mais je pense qu'il disait que ces tests supposent l'indépendance, et parce qu'il y a un nombre donné d'emplois disponibles en NZ, nos échantillons ne sont pas indépendants ... Je n'en suis pas sûr cependant (vous voir ses commentaires cités ci-dessous).
Façon de m'aider # 2 (plus)
Si vous avez du temps libre, je vous serais reconnaissant de bien vouloir examiner l'ensemble de la mission. Je fournirai également les commentaires du conférencier, donc si vous pouviez l'interpréter pour moi, ce serait génial! La tâche est très facile pour un mathématicien / statisticien, il n'y a que deux questions, c'est juste plein de rembourrage où j'ai essayé de démontrer que je sais ce que je fais, vous pouvez en sauter la plupart.
Voici le lien vers un fichier PDF avec l'affectation dans laquelle je n'ai pas réussi: statistiques d'affectation.pdf .
Commentaires du conférencier
Votre figure 1 présente une corrélation séquentielle qui est la vraie raison pour laquelle la régression linéaire ne fonctionne pas. Ni le test du pêcheur ni le chi carré ne sont bons pour votre table 2x2. C'est parce que vous voulez tester l'homogénéité, mais vous rejetez le null à cause de la non-indépendance (ce qui n'est pas intéressant). La distinction entre les deux n'est pas pertinente ici (ils sont de toute façon asymptotiquement identiques). Vous auriez pu tracer le rapport de cotes en fonction du temps.