Quels sont les avantages relatifs des données Winsorizing vs. Trimming?

31

Winsoriser les données signifie remplacer les valeurs extrêmes d'un ensemble de données par une certaine valeur de centile à chaque extrémité, tandis que le rognage ou la troncature implique la suppression de ces valeurs extrêmes.

Je vois toujours les deux méthodes discutées comme une option viable pour atténuer l'effet des valeurs aberrantes lors du calcul de statistiques telles que la moyenne ou l'écart-type, mais je n'ai pas vu pourquoi on pourrait choisir l'une plutôt que l'autre.

Y a-t-il des avantages ou des inconvénients relatifs à l'utilisation du Winsorizing ou du Trimming? Y a-t-il certaines situations où une méthode serait préférable? Est-on utilisé plus souvent dans la pratique ou sont-ils fondamentalement interchangeables?

— Brian
source

2

La terminologie ici est trompeuse. La taille signifie ignorer les valeurs extrêmes, une fraction dans chaque queue. Cela n'implique pas la suppression ou la suppression de valeurs dans les queues, notamment parce que vous pourriez, et devriez généralement, les inclure dans d'autres analyses. Le terme troncature est mieux réservé à d'autres significations. Voir par exemple en.wikipedia.org/wiki/Truncation_(statistics)

— Nick Cox

11

Dans une question différente, mais connexe sur la coupe que je viens de tomber, une réponse contenait les informations utiles suivantes sur la raison pour laquelle on pouvait utiliser soit la winsorisation ou le découpage:

Si vous prenez la distribution coupée, vous déclarez explicitement: Je ne suis pas intéressé par les valeurs aberrantes / les queues de la distribution. Si vous croyez que les «valeurs aberrantes» sont vraiment des valeurs aberrantes (c'est-à-dire qu'elles n'appartiennent pas à la distribution, mais sont «d'un autre type»), alors coupez. Si vous pensez qu'ils appartiennent à la distribution, mais que vous voulez avoir une distribution moins asymétrique, vous pouvez penser à la vinification.

Je suis curieux de savoir s'il existe une approche plus définitive, mais la logique ci-dessus semble raisonnable.

— Brian
source

4

Une bonne question qui se pose très souvent dans tous les domaines! Dans les deux cas, vous les supprimez techniquement de l'ensemble de données.

Je sais que c'est une pratique courante lorsque vous essayez de trouver graphiquement une tendance à utiliser une forme de troncature: utilisez l'ensemble des données à des fins de traçage, mais excluez ensuite les valeurs extrêmes pour l'interprétation.

Le problème avec la «winsorisation» est que les parties que vous ajoutez sont auto-remplissantes, c'est-à-dire qu'elles proviennent de l'ensemble de données lui-même et donc le supportent. Il y a des problèmes similaires si vous regardez le travail de validation croisée / classification dans l'apprentissage automatique, lorsque vous décidez comment utiliser les ensembles de données de formation et de test.

De toute façon, je ne suis pas tombé sur une approche standardisée - elle est toujours spécifique aux données. Vous pouvez essayer de déterminer quel centile vos données (les valeurs aberrantes) sont à l'origine d'un pourcentage donné de la volatilité / st. écart, et trouver un équilibre entre la réduction de cette volatilité mais la conservation autant de données que possible.

— n1k31t4
source

6

Comme dans mon commentaire ci-dessus, "les supprimer de l'ensemble de données" est trop fort ici. Ajuster ou Winsoriser signifie simplement ce qu'il fait, ignorer ou remplacer, selon le cas, pour un certain calcul. Vous n'êtes pas obligé de supprimer les valeurs de queue de l'ensemble de données, comme si vous jetiez des fruits pourris. Par exemple, face à des valeurs aberrantes possibles, vous pouvez effectuer une analyse des données à mesure qu'elles arrivent et une analyse basée sur le découpage et voir quelle différence cela fait.

— Nick Cox

-1

C'est une bonne question, et celle à laquelle j'ai été confrontée. Dans les cas où vous avez un grand ensemble de données ou plus précisément un ensemble de données très variable, où la minorité des valeurs de données varie sur une large échelle (mais doit néanmoins être affichée), et la majorité de l'ensemble de données est dans une bande étroite, de telle sorte que si les données sont tracées telles quelles, les détails où se trouvent la majorité des données sont perdus, et la normalisation ou la normalisation ne montre pas une différenciation adéquate (au moins visuellement), ou, des données brutes sont requises à la place, puis tronquer ou victoriser le des valeurs de données extrêmes permettent une meilleure visualisation des données.

— client
source

C'est une bonne question, mais vous n'y répondez pas. Vous dites simplement que tronquer ou Winsorizing peut aider à la visualisation.

— Nick Cox

-2

$O(n \log n)$ $O(n)$ $(1,2,3,4,4)$ $(2+2+3+4+4)/5$ . La moyenne tronquée correcte doit être $(2+3+4)/3$ $(2+3+4+4)/4$

— Mark Lakata
source

1

O (n \log n)

$O(n\log n)$

O (n)

$O(n)$

Vous avez raison. J'ai mal saisi mon message d'origine. Parfois, les doigts qui tapent et le cerveau ne sont pas synchronisés. Je voulais dire que pour calculer correctement une vraie moyenne tronquée , vous devez trier tous les éléments de données. Je pense que c'est toujours vrai. J'ai mis à jour par réponse.

— Mark Lakata

2

Cela semble impliquer que Winsorizing signifie Winsorizing 25% dans chaque queue. Vous pouvez Winsorize autant ou aussi peu que cela semble approprié.

— Nick Cox