Quel est l'intérêt de rapporter des statistiques descriptives?


21

Je viens d'effectuer une analyse de mes données en utilisant la régression logistique, mais je dois également avoir une partie statistique descriptive dans mon rapport. Honnêtement, je ne vois pas l'intérêt de cela et j'espérais que quelqu'un pourrait expliquer pourquoi c'est nécessaire.

Par exemple, si je trace un histogramme d'une de mes variables continues indépendantes et qu'il montre la normalité ou qu'il montre l'asymétrie comment cela ajoutera-t-il une valeur au rapport?

Mes données consistent en une variable dépendante vraie ou fausse d'obtenir un emploi et la variable indépendante est les notes à mi-parcours, les notes aux examens finaux et les hommes ou les femmes.


Si vous ne voyez aucune valeur à tracer un histogramme de vos IV, alors vous ne devriez peut-être pas le faire, mais y a-t-il des données que vous avez collectées qui, selon vous, ont une certaine valeur pour le travail que vous présentez dans le rapport?
Ian_Fin

Salut Ian, j'ai ajouté plus de détails concernant mon problème. Je suis relativement nouveau dans les statistiques et je me demandais simplement s'il y avait une approche générale que nous adoptions avant d'effectuer une régression logistique.
user3223190

Je suggère également de regarder et éventuellement d'inclure diverses parcelles de données. Par exemple, vous pouvez tracer la note finale par rapport à la note à mi-parcours avec un code couleur par sexe et un symbole codé par «obtenu un emploi» et «n'a pas réussi à obtenir un emploi».
Emil M Friedman

Réponses:


42

Dans mon domaine, la partie descriptive du rapport est extrêmement importante car elle définit le contexte de la généralisabilité des résultats. Par exemple, un chercheur souhaite identifier les prédicteurs de lésions cérébrales traumatiques à la suite d'accidents de moto dans un échantillon d'un hôpital. Sa variable dépendante est binaire et elle avait une série de variables indépendantes. La régression logistique multivariable lui a permis de produire les résultats suivants:

  • pas d'utilisation du casque ajusté OU = 4,5 (IC 95% 3,6, 5,5) par rapport à l'utilisation du casque.
  • toutes les autres variables n'ont pas été incluses dans le modèle final.

Pour être clair, la modélisation n'a posé aucun problème. Nous nous concentrons sur la valeur que les statistiques descriptives peuvent ajouter.

Sans les statistiques descriptives, un lecteur ne peut pas mettre ces résultats en perspective. Pourquoi? Permettez-moi de vous montrer les statistiques descriptives:

age, years, mean (SD)                  54 (2)
males, freq (%)                       490 (98)
blood alcohol level, %, mean (SD)    0.10 (0.01)
...

Vous pouvez voir d'après ce qui précède que son échantillon était composé de mâles plus âgés et intoxiqués. Grâce à ces informations, le lecteur est en mesure de dire ce que ces résultats peuvent dire, le cas échéant, des blessures chez les jeunes hommes ou des blessures chez les cavaliers non intoxiqués ou chez les femmes.

Veuillez ne pas ignorer les statistiques descriptives.


5
Bel exemple. Est-ce réel ou inventé?
amibe dit Réintégrer Monica

5
Merci, @amoeba. Les chiffres et les statistiques sont réels. Cependant, j'ai changé le sujet en traumatisme crânien pour protéger les innocents.

3
Alors, des hommes ivres conduisant des motos sans casque ... Qui aurait pensé que vous pourriez vous retrouver avec une lésion cérébrale traumatique?
gung - Rétablir Monica

J'appréciais un verre de beau rouge australien à l'époque et Bob est ton oncle ...

25

Le but de fournir des statistiques descriptives est de caractériser votre échantillon afin que les personnes d'autres centres ou pays puissent évaluer si vos résultats se généralisent à leur situation. Donc, dans votre cas, la tabulation du sexe, des notes, etc. serait un ajout bénéfique à la régression logistique. Il ne s'agit pas de permettre aux gens de vérifier vos hypothèses, même s'ils peuvent également essayer de le faire.

============== Modifier pour donner des liens vers certaines directives utilisées en santé

Dans le domaine que je connais, la santé, il existe des directives spécifiques pour le signalement. Ceux-ci ont été collectés ensemble dans le réseau EQUATOR qui doit être consulté pour des détails à jour.

À titre d'exemple, nous pouvons prendre des essais cliniques où la directive pertinente est CONSORT. Dans le document décrivant les lignes directrices disponibles ici et ailleurs, nous lisons dans le tableau 1 la recommandation 15 «Un tableau montrant les caractéristiques démographiques et cliniques de base pour chaque groupe».

Il existe des recommandations similaires pour d'autres types d'études.


Merci mdewey, alors quand nous faisons les différents complots descriptifs et si nous remarquons une normalité ou une asymétrie, pourquoi simplement commenter cela. Et donc, fondamentalement, les statistiques descriptives ne sont utilisées que pour informer le lecteur des données avec lesquelles vous travaillez. Vraiment désolé si cela peut sembler élémentaire
user3223190

C'est ainsi que cela fonctionne dans le domaine de la santé qui est celui que je connais le mieux.
mdewey

8
+1. Au début, j'ai mal interprété "dans d'autres centres ou pays" comme "dans d'autres siècles".
amibe dit Réintégrer Monica

4

Une autre chose est de montrer à quel point vos variables se comportent bien. Si, par exemple, l'une de vos variables est le salaire, et que vous avez interrogé exactement un milliardaire, lorsque vous saisissez son salaire dans la régression logistique va dominer tout le reste, vous apprendrez probablement à ignorer le salaire, indépendamment de la quantité d'informations réelles qu'il peut contenir.

Certaines méthodes sont plus sensibles que d'autres à l'asymétrie et aux valeurs extrêmes, et la régression logistique est plutôt sensible. Bien sûr, la preuve finale est dans le pudding, et vous pouvez comparer les résultats obtenus avec les données brutes, ou avec chaque caractéristique transformée vers la normalité.


1

Une partie descriptive aide à comprendre le lecteur de votre ensemble de données. En econ appliqué, il est généralement fortement recommandé car il peut montrer les premiers défauts potentiels de votre analyse.

Vous pouvez utiliser des données provenant de différentes sources pour faire exploser vos descriptifs.

1 table devrait suffire. Celui que vous avez joint n'est pas très intuitif.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.