Distribution des données en pourcentage

11

J'ai une question sur la distribution correcte à utiliser pour créer un modèle avec mes données. J'ai effectué un inventaire forestier avec 50 parcelles, chaque parcelle mesure 20m × 50m. Pour chaque parcelle, j'ai estimé le pourcentage de couvert arboré qui ombrage le sol. Chaque parcelle a une valeur, en pourcentage, pour la couverture de la canopée. Les pourcentages vont de 0 à 0,95. Je fais un modèle de pourcentage de couvert arboré ( variable Y ), avec une matrice de variables X indépendantes basées sur l'imagerie satellite et les données environnementales.

Je ne sais pas si je devrais utiliser une distribution binomiale, car une variable aléatoire binomiale est la somme de n essais indépendants (c.-à-d. Les variables aléatoires de Bernoulli). Les valeurs en pourcentage ne sont pas la somme des essais; ce sont les pourcentages réels. Dois-je utiliser le gamma, même s'il n'a pas de limite supérieure? Dois-je convertir des pourcentages en nombres entiers et utiliser Poisson comme nombre? Dois-je rester avec Gaussian? Je n'ai pas trouvé beaucoup d'exemples dans la littérature ou dans les manuels qui tentent de modéliser des pourcentages de cette manière. Tous les conseils ou idées sont appréciés.

Merci pour vos réponses. En fait, la distribution bêta est exactement ce dont j'ai besoin et est discutée en détail dans cet article:

Eskelson, BN, Madsen, L., Hagar, JC et Temesgen, H. (2011). Estimation de la couverture végétale du sous-étage riverain avec des modèles de régression bêta et de copules. Forest Science, 57 (3), 212-221.

Ces auteurs utilisent le package betareg en R de Cribari-Neto et Zeileis.

L'article suivant décrit un bon moyen de transformer une variable de réponse bêta distribuée lorsqu'elle inclut de vrais 0 et / ou 1 dans la plage de pourcentages:

Smithson, M. et J. Verkuilen, 2006. Un meilleur presse- citron? Régression de vraisemblance maximale avec des variables dépendantes distribuées bêta , Méthodes psychologiques, 11 (1): 54–71.

distributions binomial gamma-distribution

— Ron
source

2

Avez-vous pensé à utiliser un logit fractionnaire ou une bêta gonflée zéro ?

— Dimitriy V. Masterov

2

Merci pour vos réponses. En fait, la distribution bêta est exactement ce dont j'ai besoin et est discutée en détail dans cet article: Eskelson, BN, Madsen, L., Hagar, JC et Temesgen, H. (2011). Estimation de la couverture végétale du sous-étage riverain avec des modèles de régression bêta et de copules. Forest Science, 57 (3), 212-221. Ces auteurs utilisent le package betareg en R de Cribari-Neto et Zeileis. L'article suivant décrit un bon moyen de transformer une variable de réponse bêta distribuée lorsqu'elle inclut de vrais 0 et / ou 1 dans la plage de pourcentages: Smithson, M. et J. Verkuilen, 2006. Un meilleur citron sq

7

Vous avez raison de dire que la distribution binomiale concerne des proportions discrètes qui découlent du nombre de «succès» d'un nombre fini d'essais de Bernoulli, et que cela rend la distribution inappropriée pour vos données. Vous devez utiliser la distribution Gamma divisée par la somme de ce Gamma plus un autre Gamma. Autrement dit, vous devez utiliser la distribution bêta pour modéliser des proportions continues.

J'ai un exemple de régression bêta dans ma réponse ici: Supprimer l' effet du facteur sur les données de proportion continue en utilisant une régression en R .

$0$ $(0,\ 1)$

— gung - Réintégrer Monica
source

3

La distribution bêta peut-elle gérer les zéros?

— Dimitriy V. Masterov

1

Les valeurs en pourcentage représentent des taux indépendants du nombre d'échantillons. Vous souhaitez utiliser ces pourcentages comme variable dépendante et l'imagerie satellite comme variable explicative. Cependant, je suppose que les 50 parcelles de l'inventaire n'avaient pas toutes le même nombre d'échantillons. Un modèle approprié qui relie ces pourcentages à d'autres variables devrait prendre en compte cette incertitude dans la mesure, donnant plus de poids sur les parcelles avec des échantillons élevés.

De plus, la répartition des erreurs dans le cas de vos données est clairement binomiale. La variance d'erreur est la plus petite aux limites, elle est capturée par une distribution binomiale.

Tout cela me semble être l'exemple archétypique de l'utilisation d'un GLM avec un modèle d'erreur binomiale.

«Statistics: An Introduction using R», le chapitre 14 de Crawley traite exactement de ce sujet et comment l'analyser avec R.

— bonobo
source

4

La distribution binomiale est la distribution du nombre de succès d'un nombre connu d'essais de Bernoulli. Votre commentaire selon lequel "le fait que les essais de Bernoulli soient également décrits par une distribution binomiale ne signifie pas que tout ce qui est décrit par une distribution binomiale doit être conforme à la structure de Bernoulli" n'est pas correct. La distribution binomiale n'est pas appropriée pour des proportions continues. De plus, je n'ai pas suggéré la distribution Gamma, mais la distribution beta.

— gung - Réintègre Monica

1

oui, vous avez parfaitement raison.

— bonobo