Réponses:
Il y a une différence entre avoir une variable binaire comme variable dépendante et avoir une proportion comme variable dépendante.
Variable dépendante binaire :
Proportion comme variable dépendante :
Cela dépend de la proximité des réponses au sein de différents groupes à 0 ou 100%. S'il y a beaucoup de valeurs extrêmes (c'est-à-dire de nombreuses valeurs empilées sur 0 ou 100%), cela sera difficile. (Si vous ne connaissez pas les "dénominateurs", c'est-à-dire le nombre de sujets à partir desquels les pourcentages sont calculés, alors vous ne pouvez pas utiliser les approches de table de contingence de toute façon.) Si les valeurs au sein des groupes sont plus raisonnables, alors vous pouvez transformer le variable de réponse (par exemple, racine arquée sinusoïdale classique ou peut-être transformation logit). Il existe une variété d'approches graphiques (préférées) et d'hypothèses nulles (moins préférées) pour décider si vos données transformées répondent adéquatement aux hypothèses de l'ANOVA (homogénéité de la variance et de la normalité, la première étant plus importante que la seconde). Tests graphiques: boîtes à moustaches (homogénéité de la variance) et parcelles QQ (normalité) [ces dernières doivent être effectuées au sein de groupes ou sur des résidus]. Tests d'hypothèse nulle: par exemple test de Bartlett ou Fligner (homogénéité de la variance), Shapiro-Wilk, Jarque-Bera, etc.
Vous devez disposer des données brutes pour que la variable de réponse soit 0/1 (pas de fumée, de fumée). Ensuite, vous pouvez utiliser la régression logistique binaire. Il n'est pas correct de regrouper l'IMC en intervalles. Les seuils ne sont pas corrects, n'existent probablement pas et vous ne testez pas officiellement si l'IMC est associé au tabagisme. Vous testez actuellement si l'IMC avec la plupart de ses informations rejetées est associé au tabagisme. Vous constaterez que les intervalles d'IMC externes sont particulièrement hétérogènes.
Si vous choisissez de faire une ANOVA ordinaire sur des données proportionnelles, il est crucial de vérifier l'hypothèse de variances d'erreur homogènes. Si (comme cela est courant avec les données en pourcentage), les variances d'erreur ne sont pas constantes, une alternative plus réaliste consiste à essayer la régression bêta, qui peut expliquer cette hétéroscédasticité dans le modèle. Voici un article discutant de différentes manières alternatives de traiter une variable de réponse qui est un pourcentage ou une proportion: http://www.ime.usp.br/~sferrari/beta.pdf
Si vous utilisez R, le package betareg peut être utile.