Les deux tests modélisent implicitement la relation âge-réponse, mais ils le font de différentes manières. Le choix dépend de la façon dont vous choisissez de modéliser cette relation. Votre choix devrait dépendre d'une théorie sous-jacente, s'il y en a une; sur le type d'informations que vous souhaitez extraire des résultats; et sur la façon dont l'échantillon est sélectionné. Cette réponse traite de ces trois aspects dans l'ordre.
Je décrirai le test t et la régression logistique en utilisant un langage qui suppose que vous étudiez une population bien définie de personnes et que vous souhaitez faire des inférences de l'échantillon à cette population.
Afin de soutenir tout type d'inférence statistique, nous devons supposer que l'échantillon est aléatoire.
Un test t suppose que les personnes de l'échantillon qui ont répondu «non» sont un simple échantillon aléatoire de tous les non-répondants de la population et que les personnes de l'échantillon qui ont répondu «oui» sont un simple échantillon aléatoire de tous les oui qui ont répondu population.
Un test t fait des hypothèses techniques supplémentaires sur les distributions des âges dans chacun des deux groupes de la population. Il existe différentes versions du test t pour gérer les possibilités probables.
La régression logistique suppose que toutes les personnes de tout âge sont un simple échantillon aléatoire des personnes de cet âge dans la population. Les groupes d'âge distincts peuvent présenter différents taux de réponses «oui». Ces taux, lorsqu'ils sont exprimés en log cotes (plutôt qu'en proportions droites), sont supposés être liés linéairement à l'âge (ou à certaines fonctions déterminées de l'âge).
La régression logistique est facilement étendue pour tenir compte des relations non linéaires entre l'âge et la réponse. Une telle extension peut être utilisée pour évaluer la plausibilité de l'hypothèse linéaire initiale. Il est réalisable avec de grands ensembles de données, qui offrent suffisamment de détails pour afficher les non-linéarités, mais il est peu probable qu'il soit très utile avec de petits ensembles de données. Une règle d'or courante - selon laquelle les modèles de régression devraient avoir dix fois plus d'observations que de paramètres - suggère que sensiblement plus de 20 observations sont nécessaires pour détecter la non-linéarité (qui a besoin d'un troisième paramètre en plus de l'interception et de la pente d'une fonction linéaire ).
Un test t détecte si les âges moyens diffèrent entre les répondants non et oui dans la population. Une régression logistique estime comment le taux de réponse varie selon l'âge. En tant que tel, il est plus flexible et capable de fournir des informations plus détaillées que le test t. En revanche, il a tendance à être moins puissant que le test t dans le but fondamental de détecter une différence entre les âges moyens dans les groupes.
Il est possible que la paire de tests présente les quatre combinaisons de signification et de non-signification. Deux d'entre eux sont problématiques:
Le test t n'est pas significatif mais la régression logistique l'est. Lorsque les hypothèses des deux tests sont plausibles, un tel résultat est pratiquement impossible, car le test t n'essaie pas de détecter une relation aussi spécifique que celle posée par la régression logistique. Cependant, lorsque cette relation est suffisamment non linéaire pour amener les sujets les plus âgés et les plus jeunes à partager une opinion et les sujets d'âge moyen une autre, l'extension de la régression logistique aux relations non linéaires peut détecter et quantifier cette situation, qu'aucun test t n'a pu détecter. .
Le test t est significatif mais la régression logistique ne l'est pas, comme dans la question. Cela se produit souvent, surtout lorsqu'il y a un groupe de répondants plus jeunes, un groupe de répondants plus âgés et peu de personnes entre les deux. Cela peut créer une grande séparation entre les taux de réponse des non et des oui. Il est facilement détecté par le test t. Cependant, la régression logistique aurait soit relativement peu d'informations détaillées sur la façon dont le taux de réponse évolue réellement avec l'âge, soit des informations non concluantes: le cas de la "séparation complète" où toutes les personnes âgées répondent d'une manière et toutes les plus jeunes d'une autre manière ... mais dans ce cas, les deux tests auraient généralement des valeurs de p très faibles.
Notez que la conception expérimentale peut invalider certaines des hypothèses de test. Par exemple, si vous avez sélectionné des personnes en fonction de leur âge dans un plan stratifié, l'hypothèse du test t (que chaque groupe reflète un échantillon aléatoire aléatoire d'âges) devient discutable. Cette conception suggérerait de s'appuyer sur une régression logistique. Si, à la place, vous aviez deux pools, l'un des non-répondants et l'autre des oui, et choisis au hasard parmi ceux pour vérifier leur âge, les hypothèses d'échantillonnage de la régression logistique sont douteuses tandis que celles du test t se maintiendront. Cette conception suggérerait d'utiliser une certaine forme de test t.
(La deuxième conception peut sembler idiote ici, mais dans des circonstances où «l'âge» est remplacé par une caractéristique difficile, coûteuse ou longue à mesurer, elle peut être attrayante.)