Définition du surapprentissage

3 septembre 2021 ThePressFree Aucun commentaire

Qu’est-ce que le surapprentissage ?

Le surajustement est une erreur de modélisation dans les statistiques qui se produit lorsqu’une fonction est trop étroitement alignée sur un ensemble limité de points de données. Par conséquent, le modèle n’est utile qu’en référence à son ensemble de données initial, et non à d’autres ensembles de données.

Le surajustement du modèle prend généralement la forme d’un modèle trop complexe pour expliquer les particularités des données à l’étude. En réalité, les données souvent étudiées contiennent un certain degré d’erreur ou de bruit aléatoire. Ainsi, tenter de rendre le modèle trop conforme à des données légèrement inexactes peut infecter le modèle avec des erreurs substantielles et réduire son pouvoir prédictif.

Points clés à retenir

Le surajustement est une erreur qui se produit dans la modélisation des données en raison d’une fonction particulière s’alignant trop étroitement sur un ensemble minimal de points de données.
Les professionnels de la finance risquent de suradapter un modèle basé sur des données limitées et de se retrouver avec des résultats erronés.
Lorsqu’un modèle a été compromis par un surajustement, le modèle peut perdre sa valeur en tant qu’outil prédictif d’investissement.
Un modèle de données peut également être sous-ajusté, ce qui signifie qu’il est trop simple, avec trop peu de points de données pour être efficace.
Le surapprentissage est un problème plus fréquent que le sous-apprentissage et se produit généralement en essayant d’éviter le surapprentissage.

Comprendre le surapprentissage

Par exemple, un problème courant consiste à utiliser des algorithmes informatiques pour rechercher des bases de données étendues de données de marché historiques afin de trouver des modèles. Avec suffisamment d’études, il est souvent possible de développer des théorèmes élaborés qui semblent prédire les rendements du marché boursier avec une précision proche.

Cependant, lorsqu’ils sont appliqués à des données en dehors de l’échantillon, de tels théorèmes peuvent probablement s’avérer être simplement le surajustement d’un modèle à ce qui n’était en réalité que des événements fortuits. Dans tous les cas, il est important de tester un modèle par rapport à des données extérieures à l’échantillon utilisé pour le développer.

Comment prévenir le surapprentissage

Les moyens d’éviter le surapprentissage incluent la validation croisée, dans laquelle les données utilisées pour l’apprentissage du modèle sont découpées en plis ou partitions et le modèle est exécuté pour chaque pli. Ensuite, l’estimation d’erreur globale est moyennée. D’autres méthodes incluent l’assemblage : les prédictions sont combinées à partir d’au moins deux modèles distincts, l’augmentation des données, dans laquelle l’ensemble de données disponibles est diversifié, et la simplification des données, dans laquelle le modèle est rationalisé pour éviter le surajustement.

Les professionnels de la finance doivent toujours être conscients des dangers du surajustement ou du sous-ajustement d’un modèle basé sur des données limitées. Le modèle idéal doit être équilibré.

Surapprentissage dans l’apprentissage automatique

Le surapprentissage est également un facteur d’apprentissage automatique. Cela peut apparaître lorsqu’une machine a appris à rechercher des données spécifiques dans un sens, mais lorsque le même processus est appliqué à un nouvel ensemble de données, les résultats sont incorrects. Cela est dû à des erreurs dans le modèle qui a été construit, car il montre probablement un faible biais et une variance élevée. Le modèle peut avoir eu des caractéristiques redondantes ou qui se chevauchent, ce qui l’a rendu inutilement compliqué et donc inefficace.

Surapprentissage vs sous-apprentissage

Un modèle suréquipé peut être trop compliqué, le rendant inefficace. Mais un modèle peut également être sous-ajusté, ce qui signifie qu’il est trop simple, avec trop peu de fonctionnalités et trop peu de données pour construire un modèle efficace. Un modèle de surajustement a un faible biais et une variance élevée, tandis qu’un modèle de sous-ajustement est le contraire : il a un biais élevé et une faible variance. L’ajout de fonctionnalités supplémentaires à un modèle trop simple peut aider à limiter les biais.

Exemple de surapprentissage

Par exemple, une université qui connaît un taux de décrochage collégial supérieur à ce qu’elle souhaiterait décide de créer un modèle pour prédire la probabilité qu’un candidat parvienne jusqu’à l’obtention du diplôme.

Pour ce faire, l’université forme un modèle à partir d’un ensemble de données de 5 000 candidats et de leurs résultats. Il exécute ensuite le modèle sur l’ensemble de données d’origine (le groupe de 5 000 candidats) et le modèle prédit le résultat avec une précision de 98 %. Mais pour tester sa précision, ils exécutent également le modèle sur un deuxième ensemble de données, soit 5 000 candidats supplémentaires. Cependant, cette fois, le modèle n’est précis qu’à 50 %, car le modèle était trop étroitement ajusté à un sous-ensemble de données restreint, dans ce cas, les 5 000 premières applications.