Régression pas à pas



Qu’est-ce que la régression pas à pas ?

La régression pas à pas est la construction itérative pas à pas d’un modèle de régression qui implique la sélection de variables indépendantes à utiliser dans un modèle final. Cela implique d’ajouter ou de supprimer successivement des variables explicatives potentielles et de tester la signification statistique après chaque itération.

La disponibilité de progiciels statistiques permet une régression pas à pas, même dans des modèles comportant des centaines de variables.

Points clés à retenir

  • La régression pas à pas est une méthode qui examine de manière itérative la signification statistique de chaque variable indépendante dans un modèle de régression linéaire.
  • L’approche de sélection avancée commence par rien et ajoute chaque nouvelle variable de manière incrémentielle, en testant la signification statistique.
  • La méthode d’élimination en amont commence par un modèle complet chargé de plusieurs variables, puis supprime une variable pour tester son importance par rapport aux résultats globaux.
  • La régression pas à pas a cependant ses inconvénients, car il s’agit d’une approche qui intègre les données dans un modèle pour obtenir le résultat souhaité.

Types de régression pas à pas

L’objectif sous-jacent de la régression pas à pas est, à travers une série de tests (par exemple, des tests F, des tests t), de trouver un ensemble de variables indépendantes qui influencent de manière significative la variable dépendante. Cela se fait avec des ordinateurs par itération, qui est le processus d’arriver à des résultats ou à des décisions en passant par des tours ou des cycles d’analyse répétés. Réaliser des tests automatiquement à l’aide de progiciels statistiques a l’avantage de gagner du temps et de limiter les erreurs.

La régression par étapes peut être réalisée soit en essayant une variable indépendante à la fois et en l’incluant dans le modèle de régression si elle est statistiquement significative, soit en incluant toutes les variables indépendantes potentielles dans le modèle et en éliminant celles qui ne sont pas statistiquement significatives. Certains utilisent une combinaison des deux méthodes et il existe donc trois approches de la régression pas à pas :

  1. Sélection avant commence sans aucune variable dans le modèle, teste chaque variable au fur et à mesure qu’elle est ajoutée au modèle, puis conserve celles qui sont jugées les plus statistiquement significatives, en répétant le processus jusqu’à ce que les résultats soient optimaux.
  2. Élimination à rebours commence par un ensemble de variables indépendantes, en supprimant une à la fois, puis en testant pour voir si la variable supprimée est statistiquement significative.
  3. Élimination bidirectionnelle est une combinaison des deux premières méthodes qui testent les variables à inclure ou à exclure.

Exemple

Un exemple d’une régression pas à pas utilisant la méthode d’élimination en amont serait une tentative de comprendre la consommation d’énergie dans une usine à l’aide de variables telles que la durée de fonctionnement de l’équipement, l’âge de l’équipement, la taille du personnel, les températures extérieures et la période de l’année. Le modèle inclut toutes les variables, puis chacune est supprimée, une à la fois, pour déterminer laquelle est la moins significative sur le plan statistique. En fin de compte, le modèle pourrait montrer que la période de l’année et les températures sont les plus importantes, suggérant peut-être que la consommation d’énergie de pointe à l’usine se produit lorsque l’utilisation du climatiseur est la plus élevée.

Limites de la régression pas à pas

L’analyse de régression, à la fois linéaire et multivariée, est largement utilisée dans le monde de l’économie et de l’investissement aujourd’hui. L’idée est souvent de trouver des modèles qui existaient dans le passé et qui pourraient également se reproduire à l’avenir. Une simple régression linéaire, par exemple, pourrait examiner les ratios cours/bénéfices et les rendements boursiers sur de nombreuses années pour déterminer si les actions avec des ratios P/E faibles (variable indépendante) offrent des rendements plus élevés (variable dépendante). Le problème avec cette approche est que les conditions du marché changent souvent et que les relations qui ont existé dans le passé ne sont pas nécessairement vraies dans le présent ou le futur.

Pendant ce temps, le processus de régression par étapes a de nombreuses critiques et il y a même des appels à cesser complètement d’utiliser la méthode. Les statisticiens notent plusieurs inconvénients à l’approche, notamment des résultats incorrects, un biais inhérent au processus lui-même et la nécessité d’une puissance de calcul importante pour développer des modèles de régression complexes par itération.

Laisser un commentaire