Pourquoi le coefficient de variation n'est-il pas valide lors de l'utilisation de données avec des valeurs positives et négatives?


10

Je n'arrive pas à trouver une réponse définitive à ma question.

Mes données se composent de plusieurs graphiques avec des moyennes mesurées variant de 0,27 à 0,57. Dans mon cas, toutes les valeurs de données sont positives, mais la mesure elle-même est basée sur un rapport de valeurs de réflectance pouvant aller de -1 à +1. Les graphiques représentent les valeurs du NDVI , un indicateur dérivé à distance de la "productivité" de la végétation.

Mon intention était de comparer la variabilité des valeurs sur chaque parcelle, mais comme chaque parcelle a une moyenne différente, j'ai opté pour l'utilisation du CV pour mesurer la dispersion relative des valeurs NDVI par parcelle.

D'après ce que je comprends, prendre le CV de ces parcelles n'est pas casher car chaque parcelle peut avoir des valeurs positives et négatives. Pourquoi n'est-il pas approprié d'utiliser le CV dans de tels cas? Quelles seraient des alternatives viables (c.-à-d. Test similaire de dispersion relative, transformations de données, etc.)?


1
Quel est le but de comparer la variabilité? Pourquoi ne comparez-vous pas simplement des mesures de la variabilité réelle, comme SD, MAD, plage ou autre, au lieu d'une mesure relative comme le CV (qui n'a aucun sens ici)?
whuber

J'utilise CV pour tenir compte des différences de moyennes entre les parcelles. Cela n'a-t-il pas de sens car les valeurs varient entre -1 et +1 dans tous les graphiques? c'est-à-dire que la "variabilité réelle" serait plus révélatrice des différences entre les parcelles?
Prophet60091

2
Le CV est une mesure relative de la variation, par définition. Il donne des résultats absurdes pour toute moyenne négative (vous ne pouvez pas interpréter une quantité négative de dispersion ou de propagation). Pour des moyennes positives, cela donne à une quantité donnée d'écart un aspect beaucoup plus grand lorsque la moyenne est petite. Lorsque cela est souhaité, ce que vous faites équivaut à comparer vos données sur une échelle logarithmique - et cela n'a aucun sens chaque fois que l' une des données peut être nulle ou négative. Il est possible que vos données aient besoin d'une sorte de ré-expression pour permettre de bonnes comparaisons de variabilité; cela dépend de la façon dont ils sont générés.
whuber

+1 pour explication. Bien que les moyennes de mes parcelles soient toutes positives, il pourrait y avoir des valeurs négatives dans chaque parcelle. Sur la base de ce qui précède et de la réponse de Peter ci-dessous, il semblerait que l'utilisation du CV ne soit pas garantie. J'examinerai la possibilité de redimensionner les valeurs et / ou d'utiliser des mesures de la variabilité réelle.
Prophet60091

1
Si vous pouvez redimensionner sensiblement vos données en ajoutant une constante, cela signifie également que le CV n'est pas une bonne idée. En effet, l'ajout d'une constante modifie le CV mais pas la variation.
Peter Flom - Réintègre Monica

Réponses:


11

Réfléchissez à ce qu'est le CV: rapport de l'écart-type à la moyenne. Mais si la variable peut avoir des valeurs positives et négatives, la moyenne pourrait être très proche de 0; ainsi, CV ne fait plus ce qu'il est censé faire: c'est-à-dire donner une idée de la taille du sd par rapport à la moyenne.

EDIT: Dans un commentaire, j'ai dit que si vous pouviez raisonnablement ajouter une constante à la variable, le CV n'était pas bon. Voici un exemple:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 est simplement x + 10. Je pense qu'il est intuitivement clair qu'ils sont également variables; mais CV est différent.

Un exemple réel de cela serait si x était la température en degrés C et x2 était la température en degrés K (bien que l'on puisse affirmer que K est la bonne échelle, car il a un 0 défini).


THX! Donc, le souci est plus d'avoir une moyenne proche de zéro, et pas nécessairement d'avoir des valeurs positives et négatives dans vos données. Dans l'affirmative, à quel point une moyenne de zéro est-elle considérée comme "très proche"? Dans mon cas, je dirais que je suis loin d'avoir mes moyens près de zéro. Existe-t-il un moyen définitif de déterminer cela?
Prophet60091

Non, le problème est que le CV ne fait plus ce qu'il est censé faire, même s'il n'y a qu'une seule valeur négative. Si vous avez des valeurs négatives, n'utilisez pas CV. De plus, si vos valeurs sont sur une échelle arbitraire, n'utilisez pas CV.
Peter Flom - Réintègre Monica

Pour être complet, pourriez-vous expliquer un peu plus pourquoi l'utilisation d'une échelle arbitraire invalide l'utilisation du CV? THX!
Prophet60091

En toute honnêteté, je pense que @whuber ne préconisait pas la comparaison des données transformées par rapport aux données non transformées, mais votre point est toujours pris: la mise à l'échelle affectera le CV, alors que l'on pourrait penser que les résultats devraient rester les mêmes. +1 pour le code R du jouet!
Prophet60091

Je n'ai aucun argument avec les commentaires de @whuber sur ce fil.
Peter Flom - Réintègre Monica

0

Je les considère comme différents modèles de variation. Il existe des modèles statistiques où le CV est constant. Lorsque ceux-ci travaillent, on peut signaler un CV. Il existe des modèles où l'écart-type est une fonction de puissance de la moyenne. Il existe des modèles où l'écart-type est constant. En règle générale, un modèle à CV constant est une meilleure estimation initiale qu'un modèle SD constant, pour les variables d'échelle de rapport. Vous pouvez spéculer sur la raison pour laquelle cela serait vrai, peut-être basé sur la prévalence des interactions multiplicatives plutôt qu'additives.

La modélisation à CV constant est souvent associée à la transformation logarithmique. (Une exception importante est une réponse non négative qui est parfois nulle.) Il y a deux façons de voir les choses. Premièrement, si le CV est constant, les logs sont la transformation conventionnelle stabilisatrice de variance. Alternativement, si votre modèle d'erreur est lognormal avec une constante SD dans l'échelle logarithmique, le CV est une simple transformation de cette SD. CV est à peu près égal à SD à l'échelle logarithmique lorsque les deux sont petits.

Deux méthodes d'application des méthodes de statistiques 101, comme un écart-type, sont les données telles que vous les avez obtenues ou (surtout s'il s'agit d'une échelle de rapport) dans leurs journaux. Vous faites la meilleure estimation possible en sachant que la nature pourrait être un peu plus compliquée et qu'une étude plus approfondie pourrait être nécessaire. Tenez compte de ce que les gens ont précédemment trouvé productif avec votre type de données.

Voici un cas où ce truc est important. Les concentrations chimiques sont parfois résumées avec CV ou modélisées sur une échelle logarithmique. Cependant, le pH est une concentration logarithmique.


3
Merci pour votre contribution et bienvenue sur notre site! Pourriez-vous préciser comment votre réponse répond à la question de la validité de l'utilisation d'un CV pour caractériser les données qui peuvent avoir des valeurs négatives? Cette situation ne semble être couverte par aucune de vos remarques.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.