Définition de la multicolinéarité



Qu’est-ce que la multicolinéarité ?

La multicolinéarité est l’occurrence d’intercorrélations élevées entre deux ou plusieurs variables indépendantes dans un modèle de régression multiple. La multicolinéarité peut conduire à des résultats faussés ou trompeurs lorsqu’un chercheur ou un analyste tente de déterminer dans quelle mesure chaque variable indépendante peut être utilisée le plus efficacement possible pour prédire ou comprendre la variable dépendante dans un modèle statistique.

En général, la multicolinéarité peut conduire à des intervalles de confiance plus larges qui produisent des probabilités moins fiables en termes d’effet des variables indépendantes dans un modèle.

Points clés à retenir

  • La multicolinéarité est un concept statistique où plusieurs variables indépendantes d’un modèle sont corrélées.
  • Deux variables sont considérées comme parfaitement colinéaires si leur coefficient de corrélation est de +/- 1,0.
  • La multicolinéarité entre les variables indépendantes entraînera des inférences statistiques moins fiables.
  • Il est préférable d’utiliser des variables indépendantes qui ne sont pas corrélées ou répétitives lors de la construction de modèles de régression multiple qui utilisent deux variables ou plus.
  • L’existence d’une multicolinéarité dans un ensemble de données peut conduire à des résultats moins fiables en raison d’erreurs standard plus importantes.

Comprendre la multicolinéarité

Les analystes statistiques utilisent des modèles de régression multiple pour prédire la valeur d’une variable dépendante spécifiée sur la base des valeurs de deux ou plusieurs variables indépendantes. La variable dépendante est parfois appelée variable de résultat, cible ou critère.

Un exemple est un modèle de régression multivariée qui tente d’anticiper les rendements boursiers en fonction d’éléments tels que les ratios cours/bénéfices (ratios P/E), la capitalisation boursière, les performances passées ou d’autres données. Le rendement boursier est la variable dépendante et les divers bits de données financières sont les variables indépendantes.

La multicolinéarité dans un modèle de régression multiple indique que les variables indépendantes colinéaires sont liées d’une certaine manière, bien que la relation puisse ou non être fortuite. Par exemple, les performances passées peuvent être liées à la capitalisation boursière, car les actions qui ont bien performé dans le passé auront des valeurs marchandes croissantes.

En d’autres termes, la multicolinéarité peut exister lorsque deux variables indépendantes sont fortement corrélées. Cela peut également se produire si une variable indépendante est calculée à partir d’autres variables de l’ensemble de données ou si deux variables indépendantes fournissent des résultats similaires et répétitifs.

Considérations particulières

L’un des moyens les plus courants d’éliminer le problème de multicolinéarité consiste à identifier d’abord les variables indépendantes colinéaires, puis à les supprimer toutes sauf une.

Il est également possible d’éliminer la multicolinéarité en combinant deux ou plusieurs variables colinéaires en une seule variable. Une analyse statistique peut alors être menée pour étudier la relation entre la variable dépendante spécifiée et une seule variable indépendante.

Les inférences statistiques d’un modèle contenant de la multicolinéarité peuvent ne pas être fiables.

Exemples de multicolinéarité

en investissement

Pour investir, la multicolinéarité est une considération courante lors de l’exécution d’une analyse technique pour prédire les mouvements futurs probables des prix d’un titre, tel qu’une action ou un contrat à terme sur matières premières.

Les analystes de marché veulent éviter d’utiliser des indicateurs techniques qui sont colinéaires dans la mesure où ils sont basés sur des intrants très similaires ou liés ; ils ont tendance à révéler des prédictions similaires concernant la variable dépendante du mouvement des prix. Au lieu de cela, l’analyse du marché doit être basée sur des variables indépendantes très différentes pour garantir qu’elles analysent le marché à partir de différents points de vue analytiques indépendants.

Un exemple de problème potentiel de multicolinéarité consiste à effectuer une analyse technique uniquement à l’aide de plusieurs indicateurs similaires.

Le célèbre analyste technique John Bollinger, créateur de l’indicateur des bandes de Bollinger, note qu' »une règle cardinale pour une utilisation réussie de l’analyse technique nécessite d’éviter la multicolinéarité entre les indicateurs ». Pour résoudre le problème, les analystes évitent d’utiliser deux ou plusieurs indicateurs techniques du même type. Au lieu de cela, ils analysent un titre à l’aide d’un type d’indicateur, tel qu’un indicateur de dynamique, puis effectuent une analyse distincte à l’aide d’un type d’indicateur différent, tel qu’un indicateur de tendance.

Par exemple, la stochastique, l’indice de force relative (RSI) et le %R de Williams sont tous des indicateurs de dynamique qui reposent sur des entrées similaires et sont susceptibles de produire des résultats similaires. Dans ce cas, il est préférable de supprimer tous les indicateurs sauf un ou de trouver un moyen de fusionner plusieurs d’entre eux en un seul indicateur, tout en ajoutant également un indicateur de tendance qui ne sera probablement pas fortement corrélé avec l’indicateur de dynamique.

En biologie

La multicolinéarité est également observée dans de nombreux autres contextes. Un de ces contextes est la biologie humaine. Par exemple, la tension artérielle d’un individu n’est pas colinéaire avec l’âge, mais aussi avec le poids, le stress et le pouls.

Comment détecter la multicolinéarité ?

Une technique statistique appelée facteur d’inflation de la variance (VIF) est utilisée pour détecter et mesurer le degré de colinéarité dans un modèle de régression multiple.

Comment gérer la multicolinéarité ?

Pour réduire la quantité de multicolinéarité trouvée dans un modèle, on peut supprimer les variables spécifiques qui sont identifiées comme les plus colinéaires. Vous pouvez également essayer de combiner ou de transformer les variables incriminées pour réduire leur corrélation. Si cela ne fonctionne pas ou est impossible à atteindre, il existe des modèles de régression modifiés qui traitent mieux la multicolinéarité, tels que la régression de crête, la régression en composante principale ou la régression partielle des moindres carrés.

Qu’est-ce que la colinéarité parfaite ?

La colinéarité parfaite existe lorsqu’il existe une correspondance exacte 1:1 entre deux variables indépendantes dans un modèle. Cela peut être une corrélation de +1,0 ou de -1,0.

Pourquoi la multicolinéarité est-elle un problème ?

La multicolinéarité est un problème car elle produit des résultats de modèle de régression qui sont moins fiables. Cela est dû à des intervalles de confiance plus larges (erreurs types plus importantes) qui peuvent réduire la signification statistique des coefficients de régression.

Laisser un commentaire