Imaginez, vous êtes un médecin dans une unité de soins intensifs. Vous avez un patient qui a une forte fièvre, un nombre donné de cellules sanguines, un poids corporel donné et une centaine de données différentes et que vous voulez prédire s’il va survivre. Si oui, il va cacher cette histoire sur son autre enfant à sa femme, sinon, il est important pour lui de la révéler, pendant qu'il le peut.
Le médecin peut faire cette prédiction en se basant sur les données d'anciens patients de son unité. Sur la base de ses connaissances en logiciels, il peut prédire en utilisant soit une régression linéaire généralisée (glm), soit un réseau de neurones (nn).
1. Modèle linéaire généralisé
Il y a beaucoup trop de paramètres corrélés pour la maladie alors pour obtenir un résultat, le médecin devra émettre des hypothèses (linéarité, etc.) et décider quels paramètres sont susceptibles d'avoir une influence. Le médecin le récompensera par un test t significatif pour chacun de ses paramètres afin qu'il puisse rassembler des preuves solides, que le sexe et la fièvre ont une influence significative, mais pas nécessairement le poids corporel.
2. Réseau de neurones
Le réseau neuronal avalera et digérera toutes les informations présentes dans l'échantillon d'anciens patients. Peu importe si les prédicteurs sont corrélés et si beaucoup d'influences ne sont pas révélées, l'influence du poids semble ne jouer un rôle important que dans l'échantillon concerné ou en général (du moins pas au niveau d'expertise que le médecin a à offrir). Il va juste calculer un résultat.
Ce qui est mieux
Quelle méthode choisir dépend de l'angle sous lequel vous envisagez le problème: En tant que patient, je préférerais le réseau neuronal qui utilise toutes les données disponibles pour mieux deviner ce qui va m'arriver sans des hypothèses fortes et manifestement erronées telles que la linéarité. En tant que médecin souhaitant présenter des données dans un journal, il a besoin de valeurs prédictives. La médecine est très conservatrice: ils vont demander des valeurs de p. Le médecin veut donc signaler que, dans une telle situation, le sexe a une influence notable. Pour le patient, cela n'a pas d'importance, il vous suffit d'utiliser l'influence que l'échantillon suggère comme étant le plus probable.
Dans cet exemple, le patient veut une prédiction, le côté scientifique du médecin veut une inférence. Généralement, lorsque vous voulez comprendre un système, la déduction est bonne. Si vous devez prendre une décision où vous ne pouvez pas comprendre le système, la prévision devra suffire.