Définition de la moyenne winsorisée



Qu’est-ce que la moyenne winsorisée ?

La moyenne winsorisée est une méthode de calcul de moyenne qui remplace initialement les valeurs les plus petites et les plus grandes par les observations les plus proches d’elles. Ceci est fait pour limiter l’effet des valeurs aberrantes ou des valeurs extrêmes anormales, ou des valeurs aberrantes, sur le calcul.

Après avoir remplacé les valeurs, la formule de la moyenne arithmétique est ensuite utilisée pour calculer la moyenne winsorisée.

Points clés à retenir

  • La moyenne winsorisée est une méthode de calcul de moyenne qui consiste à remplacer les valeurs les plus petites et les plus grandes d’un ensemble de données par les observations les plus proches d’elles.
  • Il atténue les effets des valeurs aberrantes en les remplaçant par des valeurs moins extrêmes.
  • La moyenne winsorisée n’est pas la même que la moyenne tronquée, ce qui implique de supprimer des points de données plutôt que de les remplacer, bien que les résultats des deux aient tendance à être proches.

Formule pour la moyenne winsorisée

se

Moyenne winsorisée

=

X

m

X

m

+

1

+

X

m

+

2

X

m

N

où:

m

=

Le nombre de données les plus grandes et les plus petites

points à remplacer par l’observation

begin{aligned} &text{Winsorized Mean} = frac{x_{n}dots x_{n+1} + x_{n+2}dots x_{n}}{N} &textbf{où :}\ &begin{aligned} n = &text{Le nombre de données les plus grandes et les plus petites}\ &text{points à remplacer par l’observation}\ & text{le plus proche d’eux}end{aligné}\ &N = text{Nombre total de points de données} end{aligned} Moyenne winsorisée = NXmXm+1 + Xm+2Xmoù:m = Le nombre de données les plus grandes et les plus petitespoints à remplacer par l’observationse

Les moyennes winsorisées s’expriment de deux manières. Un « km » La moyenne winsorisée fait référence au remplacement des observations les plus petites et les plus grandes de  » k « , où  » k  » est un entier. Une moyenne winsorisée  » X %  » implique le remplacement d’un pourcentage donné de valeurs des deux extrémités des données.

La moyenne winsorisée est obtenue en remplaçant les points de données les plus petits et les plus grands, puis en additionnant tous les points de données et en divisant la somme par le nombre total de points de données.

Que vous dit le Winsorized Mean ?

La moyenne winsorisée est moins sensible aux valeurs aberrantes car elle peut les remplacer par des valeurs moins extrêmes. C’est-à-dire qu’il est moins sensible aux valeurs aberrantes par rapport à la moyenne arithmétique. Cependant, si une distribution a de grosses queues, l’effet de la suppression des valeurs les plus élevées et les plus basses de la distribution aura peu d’influence en raison du degré élevé de variabilité dans les chiffres de la distribution.

Un inconvénient majeur des moyens winsorisés est qu’ils introduisent naturellement un certain biais dans l’ensemble de données. En réduisant l’influence des valeurs aberrantes, l’analyse est modifiée pour une meilleure analyse, mais supprime également les informations sur les données sous-jacentes.

Exemple d’utilisation de la moyenne winsorisée

Calculons la moyenne winsorisée pour l’ensemble de données suivant : 1, 5, 7, 8, 9, 10, 34. Dans cet exemple, nous supposons que la moyenne winsorisée est du premier ordre, dans lequel nous remplaçons les valeurs les plus petites et les plus grandes par leurs observations les plus proches.

L’ensemble de données apparaît maintenant comme suit : 5, 5, 7, 8, 9, 10, 10. Prendre une moyenne arithmétique du nouvel ensemble produit une moyenne winsorisée de 7,7, ou (5 + 5 + 7 + 8 + 9 + 10 + 10) divisé par 7. Notez que la moyenne arithmétique aurait plus – 10,6. La moyenne winsorisée réduit efficacement l’influence de la valeur 34 en tant que valeur aberrante.

Ou considérez une moyenne winsorisée de 20 % qui prend les 10 % supérieurs et les 10 % inférieurs et les remplace par leur prochaine valeur la plus proche. Nous allons winsoriser le jeu de données suivant : 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Les deux les points de données les plus petits et les plus grands (10 % des 20 points de données) seront remplacés par leur prochaine valeur la plus proche. Ainsi, le nouvel ensemble de données est le suivant : 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. La moyenne winsorisée est de 33,9, ou le total des données (678) divisé par le nombre total de points de données (20).

Moyenne winsorisée vs moyenne tronquée

La moyenne winsorisée comprend la modification des points de données, tandis que la moyenne tronquée implique la suppression des points de données. Il est courant que la moyenne winsorisée et la moyenne tronquée soient proches ou parfois égales en valeur l’une à l’autre.

Laisser un commentaire