Si le public n'a vraiment aucun fond statistique, je pense que j'essaierais de simplifier un peu plus l'explication. Tout d'abord, je dessinerais un plan de coordonnées sur la carte avec une ligne dessus, comme ceci:
Tout le monde à votre conversation connaîtra l'équation d'une ligne simple, y = m x + b , car c'est quelque chose qui s'apprend à l'école primaire. Je voudrais donc afficher cela à côté du dessin. Cependant, je l'écrirais à l'envers, comme ceci: y= m x + b
m x + b = y
Je dirais que cette équation est un exemple de régression linéaire simple. J'expliquerais ensuite comment vous (ou un ordinateur) pourriez adapter une telle équation à un nuage de points de données, comme celui montré dans cette image:
Je dirais qu'ici, nous utilisons l'âge de l'organisme que nous étudions pour prédire sa taille, et que l'équation de régression linéaire résultante que nous obtenons (montrée sur l'image) peut être utilisée pour prédire la taille d'un organisme est si nous connaissons son âge.
m x + b = y
Ensuite, je voudrais expliquer à nouveau qu'il s'agissait d'un exemple d'une équation de régression linéaire simple, et qu'il existe en fait des variétés plus compliquées. Par exemple, dans une variété appelée régression logistique , les y ne peuvent être que des 1 ou des 0. On pourrait vouloir utiliser ce type de modèle si vous essayez de prédire une réponse «oui» ou «non», comme si oui ou non quelqu'un a une maladie. Une autre variété spéciale est quelque chose qui s'appelle la régression de Poisson , qui est utilisée pour analyser les données de "comptage" ou "d'événement" (je ne m'attarderais pas sur ce sujet à moins que cela ne soit vraiment nécessaire).
J'expliquerais alors que la régression linéaire, la régression logistique et la régression de Poisson sont vraiment tous des exemples spéciaux d'une méthode plus générale, quelque chose appelée "modèle linéaire généralisé". La grande chose au sujet des "modèles linéaires généralisés" est qu'ils nous permettent d'utiliser des données de "réponse" qui peuvent prendre n'importe quelle valeur (comme la taille d'un organisme en régression linéaire), prendre seulement 1 ou 0 (comme si oui ou non quelqu'un a un maladie dans la régression logistique), ou prendre des comptes discrets (comme le nombre d'événements dans la régression de Poisson).
Je dirais alors que dans ces types d'équations, les x (prédicteurs) sont connectés aux y (réponses) via quelque chose que les statisticiens appellent une «fonction de lien». Nous utilisons ces "fonctions de liaison" dans les cas où les x ne sont pas liés aux y de manière linéaire.
Quoi qu'il en soit, ce sont mes deux cents sur la question! Peut-être que mon explication proposée semble un peu loufoque et stupide, mais si le but de cet exercice est simplement de faire passer "l'essentiel" au public, peut-être qu'une explication comme celle-ci n'est pas trop mauvaise. Je pense qu'il est important que le concept soit expliqué de manière intuitive et que vous évitiez de lancer des mots comme "composant aléatoire", "composant systématique", "fonction de lien", "déterministe", "fonction logit", etc. Si vous ' En parlant à des gens qui n'ont pas vraiment de connaissances statistiques, comme un biologiste ou un médecin typique, leurs yeux vont simplement devenir glaciaux en entendant ces mots. Ils ne savent pas ce qu'est une distribution de probabilité, ils n'ont jamais entendu parler d'une fonction de lien, et ils ne savent pas ce qu'est un "logit"
Dans votre explication à un public non statistique, je me concentrerais également sur le moment d'utiliser quelle variété de modèle. Je pourrais parler du nombre de prédicteurs que vous êtes autorisé à inclure sur le côté gauche de l'équation (j'ai entendu des règles de base comme pas plus que la taille de votre échantillon divisé par dix). Il serait également intéressant d'inclure un exemple de feuille de calcul avec des données et d'expliquer au public comment utiliser un logiciel statistique pour générer un modèle. Je passerais ensuite en revue la sortie de ce modèle étape par étape et essayer d'expliquer ce que signifient toutes les différentes lettres et chiffres. Les biologistes ne savent rien de tout cela et sont plus intéressés à savoir quel test utiliser quand plutôt que de réellement comprendre les mathématiques derrière l'interface graphique de SPSS!
J'apprécierais tout commentaire ou suggestion concernant mon explication proposée, en particulier si quelqu'un note des erreurs ou pense à une meilleure façon de l'expliquer!