Définition de la régression linéaire multiple (MLR)

3 janvier 2022 ThePressFree Aucun commentaire

Qu’est-ce que la régression linéaire multiple (MLR) ?

La régression linéaire multiple (MLR), également connue simplement sous le nom de régression multiple, est une technique statistique qui utilise plusieurs variables explicatives pour prédire le résultat d’une variable de réponse. L’objectif de la régression linéaire multiple est de modéliser la relation linéaire entre les variables explicatives (indépendantes) et les variables de réponse (dépendantes). Essentiellement, la régression multiple est l’extension de la régression des moindres carrés ordinaires (MCO) car elle implique plus d’une variable explicative.

Points clés à retenir

La régression linéaire multiple (MLR), également connue simplement sous le nom de régression multiple, est une technique statistique qui utilise plusieurs variables explicatives pour prédire le résultat d’une variable de réponse.
La régression multiple est une extension de la régression linéaire (OLS) qui utilise une seule variable explicative.
La MLR est largement utilisée en économétrie et en inférence financière.

Formule et calcul de la régression linéaire multiple

$\begin{matrix} \end{matrix}$

oui

où,

pour

remarques :

oui

variable dépendante

variables explicatives

ordonnée à l’origine (terme constant)

coefficients de pente pour chaque variable explicative

le terme d’erreur du modèle (également connu sous le nom de résidus)

begin{aligned}&y_i = beta_0 + beta _1 x_{i1} + beta _2 x_{i2} + … + beta _p x_{ip} + epsilon\&textbf{où, pour } i = n textbf{ observations :}\&y_i=text{variable dépendante}\&x_i=text{variables explicatives}\&beta_0=text{y-intercept (terme constant)}\& beta_p=text{coefficients de pente pour chaque variable explicative}\&epsilon=text{terme d’erreur du modèle (également appelé résidus)}end{aligned} $oui_{je} = ??_{0} + ??_{1} X_{je 1} + ??_{2} X_{je 2} + . . . + ??_{p} X_{je p} + ?? où, pour je = m remarques : oui_{je} = variable dépendante X_{je} = variables explicatives ??_{0} = ordonnée à l’origine (terme constant) ??_{p} = coefficients de pente pour chaque variable explicative ?? = le terme d’erreur du modèle (également connu sous le nom de résidus)$

Ce que la régression linéaire multiple peut vous dire

La régression linéaire simple est une fonction qui permet à un analyste ou à un statisticien de faire des prédictions sur une variable en fonction des informations connues sur une autre variable. La régression linéaire ne peut être utilisée que lorsqu’on a deux variables continues : une variable indépendante et une variable dépendante. La variable indépendante est le paramètre utilisé pour calculer la variable dépendante ou le résultat. Un modèle de régression multiple s’étend à plusieurs variables explicatives.

Le modèle de régression multiple est basé sur les hypothèses suivantes :

Il existe une relation linéaire entre les variables dépendantes et les variables indépendantes
Les variables indépendantes ne sont pas trop fortement corrélées entre elles
oui_je les observations sont sélectionnées indépendamment et au hasard dans la population
Les résidus doivent être distribués normalement avec une moyenne de 0 et une variance ??

Le coefficient de détermination (R-carré) est une mesure statistique utilisée pour mesurer dans quelle mesure la variation des résultats peut être expliquée par la variation des variables indépendantes. R² augmente toujours à mesure que davantage de prédicteurs sont ajoutés au modèle MLR, même si les prédicteurs peuvent ne pas être liés à la variable de résultat.

R² en soi ne peut donc pas être utilisé pour identifier quels prédicteurs devraient être inclus dans un modèle et lesquels devraient être exclus. R² ne peut être compris qu’entre 0 et 1, où 0 indique que le résultat ne peut être prédit par aucune des variables indépendantes et 1 indique que le résultat peut être prédit sans erreur à partir des variables indépendantes.

Lors de l’interprétation des résultats de la régression multiple, les coefficients bêta sont valides tout en maintenant toutes les autres variables constantes (« toutes autres choses égales »). Le résultat d’une régression multiple peut être affiché horizontalement sous forme d’équation ou verticalement sous forme de tableau.

Exemple d’utilisation de la régression linéaire multiple

Par exemple, un analyste peut vouloir savoir comment le mouvement du marché affecte le prix d’ExxonMobil (XOM). Dans ce cas, leur équation linéaire aura la valeur de l’indice S&P 500 comme variable indépendante, ou prédicteur, et le prix de XOM comme variable dépendante.

En réalité, plusieurs facteurs prédisent l’issue d’un événement. Le mouvement des prix d’ExxonMobil, par exemple, ne dépend pas seulement de la performance du marché dans son ensemble. D’autres prédicteurs tels que le prix du pétrole, les taux d’intérêt et le mouvement des prix des contrats à terme sur le pétrole peuvent affecter le prix du XOM et les cours des actions d’autres sociétés pétrolières. Pour comprendre une relation dans laquelle plus de deux variables sont présentes, la régression linéaire multiple est utilisée.

La régression linéaire multiple (MLR) est utilisée pour déterminer une relation mathématique entre plusieurs variables aléatoires. En d’autres termes, MLR examine comment plusieurs variables indépendantes sont liées à une variable dépendante. Une fois que chacun des facteurs indépendants a été déterminé pour prédire la variable dépendante, les informations sur les multiples variables peuvent être utilisées pour créer une prédiction précise sur le niveau d’effet qu’elles ont sur la variable de résultat. Le modèle crée une relation sous la forme d’une ligne droite (linéaire) qui se rapproche le mieux de tous les points de données individuels.

En se référant à l’équation MLR ci-dessus, dans notre exemple :

oui_je = variable dépendante – le prix de XOM
X_i1 = taux d’intérêt
X_i2= prix du pétrole
X_i3= valeur de l’indice S&P 500
X_i4= prix des contrats à terme sur le pétrole
B₀ = ordonnée à l’origine au temps zéro
B₁ = coefficient de régression qui mesure un changement d’unité dans la variable dépendante lorsque x_i1 changements – le changement de prix XOM lorsque les taux d’intérêt changent
B₂ = valeur de coefficient qui mesure un changement d’unité dans la variable dépendante lorsque x_i2 changements – le changement du prix XOM lorsque les prix du pétrole changent

Les estimations des moindres carrés—B₀, B₁, B₂…B_p-sont généralement calculés par un logiciel statistique. Autant de variables peuvent être incluses dans le modèle de régression dans lequel chaque variable indépendante est différenciée par un nombre—1,2, 3, 4…p. Le modèle de régression multiple permet à un analyste de prédire un résultat sur la base des informations fournies sur plusieurs variables explicatives.

Pourtant, le modèle n’est pas toujours parfaitement précis car chaque point de données peut différer légèrement du résultat prédit par le modèle. La valeur résiduelle, E, qui est la différence entre le résultat réel et le résultat prévu, est incluse dans le modèle pour tenir compte de ces légères variations.

En supposant que nous exécutions notre modèle de régression des prix XOM via un logiciel de calcul de statistiques, qui renvoie cette sortie :

Un analyste interpréterait cette sortie comme signifiant que si les autres variables sont maintenues constantes, le prix du XOM augmentera de 7,8% si le prix du pétrole sur les marchés augmente de 1%. Le modèle montre également que le prix du XOM diminuera de 1,5% suite à une hausse de 1% des taux d’intérêt. R² indique que 86,5% des variations du cours de l’action d’Exxon Mobil peuvent être expliquées par des variations du taux d’intérêt, du prix du pétrole, des contrats à terme sur le pétrole et de l’indice S&P 500.

La différence entre la régression linéaire et multiple

La régression des carrés linéaires ordinaires (OLS) compare la réponse d’une variable dépendante compte tenu d’un changement dans certaines variables explicatives. Cependant, une variable dépendante est rarement expliquée par une seule variable. Dans ce cas, un analyste utilise la régression multiple, qui tente d’expliquer une variable dépendante à l’aide de plusieurs variables indépendantes. Les régressions multiples peuvent être linéaires et non linéaires.

Les régressions multiples reposent sur l’hypothèse qu’il existe une relation linéaire entre les variables dépendantes et indépendantes. Il suppose également qu’il n’y a pas de corrélation majeure entre les variables indépendantes.

Qu’est-ce qui rend une régression multiple multiple ?

Une régression multiple considère l’effet de plus d’une variable explicative sur un résultat d’intérêt. Il évalue l’effet relatif de ces variables explicatives, ou indépendantes, sur la variable dépendante lorsque toutes les autres variables du modèle sont maintenues constantes.

Pourquoi utiliser une régression multiple plutôt qu’une simple régression OLS ?

Une variable dépendante est rarement expliquée par une seule variable. Dans de tels cas, un analyste utilise la régression multiple, qui tente d’expliquer une variable dépendante en utilisant plus d’une variable indépendante. Cependant, le modèle suppose qu’il n’y a pas de corrélations majeures entre les variables indépendantes.

Puis-je faire une régression multiple à la main ?

C’est peu probable car les modèles de régression multiple sont complexes et le deviennent encore plus lorsqu’il y a plus de variables incluses dans le modèle ou lorsque la quantité de données à analyser augmente. Pour exécuter une régression multiple, vous devrez probablement utiliser des logiciels ou des fonctions statistiques spécialisés dans des programmes comme Excel.

Qu’est-ce que cela signifie pour une régression multiple d’être linéaire?

Dans la régression linéaire multiple, le modèle calcule la ligne de meilleur ajustement qui minimise les variances de chacune des variables incluses en ce qui concerne la variable dépendante. Parce qu’il s’adapte à une ligne, c’est un modèle linéaire. Il existe également des modèles de régression non linéaire impliquant plusieurs variables, tels que la régression logistique, la régression quadratique et les modèles probit.

Comment les modèles de régression multiple sont-ils utilisés en finance ?

Tout modèle économétrique qui examine plus d’une variable peut être un multiple. Les modèles factoriels comparent deux ou plusieurs facteurs pour analyser les relations entre les variables et les performances qui en résultent. Le Fama and French Three-Factor Mod est un tel modèle qui étend le modèle d’évaluation des actifs financiers (CAPM) en ajoutant des facteurs de risque de taille et de valeur au facteur de risque de marché dans CAPM (qui est lui-même un modèle de régression). En incluant ces deux facteurs supplémentaires, le modèle ajuste cette tendance à la surperformance, ce qui en fait un meilleur outil pour évaluer la performance des gestionnaires.