Habituellement, dans la recherche biomédicale, nous n'utilisons pas un ensemble de formation --- nous appliquons simplement une régression logistique sur l'ensemble de données complet pour voir quels prédicteurs sont des facteurs de risque importants pour le résultat que nous examinons; ou pour examiner un prédicteur d'intérêt tout en contrôlant l'effet d'autres prédicteurs possibles sur le résultat.
Je ne sais pas exactement ce que vous entendez par valeurs de seuil, mais il y a divers paramètres que l'on peut chercher à optimiser: AUC, valeurs de coupure pour une dichotomisation d'une variable prédictive continue, valeurs prédictives positives et négatives, intervalles de confiance et valeurs p, taux de faux positifs et de faux négatifs. La régression logistique examine une population de sujets et évalue la force et la direction causale des facteurs de risque qui contribuent au résultat d'intérêt pour cette population. Il est également possible de «l'exécuter en sens inverse», pour ainsi dire, et de déterminer le risque de résultat d'un individu, compte tenu des facteurs de risque de l'individu. La régression logistique attribue à chaque individu un risque de résultat, en fonction de ses facteurs de risque individuels, et par défaut, il est de 0,5. Si un sujet ' s la probabilité d'avoir le résultat (sur la base de toutes les données et sujets de votre modèle) est de 0,5 ou plus, cela prédit qu'il aura le résultat; s'il est inférieur à 0,5, il prédit qu'il ne le fera pas. Mais vous pouvez ajuster ce niveau de coupure, par exemple pour signaler plus d'individus qui pourraient être à risque d'avoir le résultat, mais au prix d'avoir plus de faux positifs prédits par le modèle. Vous pouvez ajuster ce niveau de coupure pour optimiser les décisions de dépistage afin de prédire quelles personnes seraient invitées à subir un suivi médical supplémentaire, par exemple; et pour construire votre valeur prédictive positive, votre valeur prédictive négative et vos taux de faux négatifs et de faux positifs pour un test de dépistage basé sur le modèle de régression logistique. Vous pouvez développer le modèle sur la moitié de votre jeu de données et le tester sur l'autre moitié, mais vous ne le faites pas ' ce n'est pas vraiment le cas (et cela réduira de moitié vos données d '«entraînement» et réduira ainsi le pouvoir de trouver des prédicteurs significatifs dans le modèle). Alors oui, vous pouvez «entraîner le tout de bout en bout». Bien sûr, dans la recherche biomédicale, vous voudriez le valider sur une autre population, un autre ensemble de données avant de dire que vos résultats peuvent être généralisés à une population plus large. Une autre approche consiste à utiliser une approche de type bootstrap où vous exécutez votre modèle sur un sous-échantillon de votre population d'étude, puis replacez ces sujets dans le pool et répétez avec un autre échantillon, plusieurs fois (généralement 1000 fois). Si vous obtenez des résultats significatifs la majorité du temps prescrite (par exemple 95% du temps), votre modèle peut être considéré comme validé --- au moins sur vos propres données. Mais encore une fois, plus la population étudiée sur laquelle vous exécutez votre modèle est petite, moins il est probable que certains prédicteurs seront des facteurs de risque statistiquement significatifs pour le résultat. Cela est particulièrement vrai pour les études biomédicales avec un nombre limité de participants.
Utiliser la moitié de vos données pour «former» votre modèle et ensuite le «valider» sur l'autre moitié est une charge inutile. Vous ne faites pas cela pour les tests t ou la régression linéaire, alors pourquoi le faire dans la régression logistique? Le plus que cela puisse faire est de vous laisser dire «oui ça marche», mais si vous utilisez votre ensemble de données complet, vous le déterminez quand même. La division de vos données en ensembles de données plus petits risque de ne pas détecter de facteurs de risque significatifs dans la population d'étude (OU la population de validation) lorsqu'ils sont en fait présents, en raison de la petite taille de l'échantillon, de trop de prédicteurs pour la taille de votre étude et de la possibilité que votre «échantillon de validation» ne montrera aucune association par hasard. La logique derrière l'approche «former puis valider» semble être que si les facteurs de risque que vous identifiez comme importants ne sont pas assez forts, alors ils ne seront pas statistiquement significatifs lorsqu'ils seront modélisés sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. t être statistiquement significatif lorsqu'il est modélisé sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. t être statistiquement significatif lorsqu'il est modélisé sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. s l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. s l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude.