Définition des statistiques descriptives

4 août 2021 ThePressFree Aucun commentaire

Que sont les statistiques descriptives ?

Les statistiques descriptives sont de brefs coefficients descriptifs qui résument un ensemble de données donné, qui peut être une représentation de l’ensemble ou d’un échantillon d’une population. Les statistiques descriptives sont décomposées en mesures de tendance centrale et mesures de variabilité (spread).

Les mesures de tendance centrale comprennent la moyenne, la médiane et le mode, tandis que les mesures de variabilité comprennent l’écart type, la variance, les variables minimales et maximales, l’aplatissement et l’asymétrie.

Points clés à retenir

Les statistiques descriptives résument ou décrivent les caractéristiques d’un ensemble de données.
Les statistiques descriptives se composent de deux catégories fondamentales de mesures : les mesures de tendance centrale et les mesures de variabilité (ou d’étalement).
Les mesures de tendance centrale décrivent le centre d’un ensemble de données.
Les mesures de variabilité ou d’étalement décrivent la dispersion des données au sein de l’ensemble.

Qu’est-ce que la statistique descriptive ?

Comprendre les statistiques descriptives

Les statistiques descriptives, en bref, aident à décrire et à comprendre les caractéristiques d’un ensemble de données spécifique en donnant de courts résumés sur l’échantillon et les mesures des données. Les types de statistiques descriptives les plus reconnus sont les mesures de centre : la moyenne, la médiane et le mode, qui sont utilisées à presque tous les niveaux de mathématiques et de statistiques. La moyenne, ou la moyenne, est calculée en additionnant tous les chiffres de l’ensemble de données, puis en divisant par le nombre de chiffres dans l’ensemble.

Par exemple, la somme de l’ensemble de données suivant est 20 : (2, 3, 4, 5, 6). La moyenne est de 4 (20/5). Le mode d’un jeu de données est la valeur qui apparaît le plus souvent, et la médiane est le chiffre situé au milieu du jeu de données. C’est le chiffre qui sépare les chiffres les plus élevés des chiffres les plus bas dans un ensemble de données. Cependant, il existe des types de statistiques descriptives moins courants qui sont encore très importants.

Les gens utilisent des statistiques descriptives pour transformer des informations quantitatives difficiles à comprendre à travers un grand ensemble de données en descriptions de la taille d’une bouchée. La moyenne pondérée cumulative (MPC) d’un élève, par exemple, permet de bien comprendre les statistiques descriptives. L’idée d’un GPA est qu’il prend des points de données à partir d’un large éventail d’examens, de classes et de notes, et les fait la moyenne pour fournir une compréhension générale des performances académiques globales d’un étudiant. Le GPA personnel d’un élève reflète ses performances académiques moyennes.

Mesures des statistiques descriptives

Toutes les statistiques descriptives sont soit des mesures de tendance centrale, soit des mesures de variabilité, également appelées mesures de dispersion. Les mesures de tendance centrale se concentrent sur les valeurs moyennes ou moyennes des ensembles de données, tandis que les mesures de variabilité se concentrent sur la dispersion des données. Ces deux mesures utilisent des graphiques, des tableaux et des discussions générales pour aider les gens à comprendre la signification des données analysées.

Les mesures de tendance centrale décrivent la position centrale d’une distribution pour un ensemble de données. Une personne analyse la fréquence de chaque point de données dans la distribution et la décrit à l’aide de la moyenne, de la médiane ou du mode, qui mesure les modèles les plus courants de l’ensemble de données analysé.

Les mesures de variabilité, ou les mesures de propagation, aident à analyser l’étendue de la distribution pour un ensemble de données. Par exemple, alors que les mesures de tendance centrale peuvent donner à une personne la moyenne d’un ensemble de données, elles ne décrivent pas comment les données sont distribuées au sein de l’ensemble. Ainsi, bien que la moyenne des données puisse être de 65 sur 100, il peut toujours y avoir des points de données à la fois à 1 et à 100. Les mesures de variabilité aident à communiquer cela en décrivant la forme et la répartition de l’ensemble de données. La plage, les quartiles, l’écart absolu et la variance sont tous des exemples de mesures de variabilité.

Considérez l’ensemble de données suivant : 5, 19, 24, 62, 91, 100. La plage de cet ensemble de données est 95, qui est calculée en soustrayant le nombre le plus bas (5) dans l’ensemble de données du plus élevé (100).

Questions fréquemment posées

Pourquoi avons-nous besoin de statistiques qui décrivent simplement les données ?

Les statistiques descriptives sont utilisées pour décrire ou résumer les caractéristiques d’un échantillon ou d’un ensemble de données, telles que la moyenne, l’écart type ou la fréquence d’une variable. Statistiques déductives. Ce type de statistiques peut nous aider à comprendre les propriétés collectives des éléments d’un échantillon de données. Ces mesures peuvent nous donner une idée de la distribution de probabilité, ou de la « forme » globale des données, qui peuvent être représentées sur un graphique tel qu’un histogramme ou un dot plot. Connaître la moyenne de l’échantillon, la variance et la distribution d’une variable peut nous aider à comprendre le monde qui nous entoure.

Que sont la moyenne et l’écart type ?

Ce sont deux statistiques descriptives couramment utilisées. La moyenne est le niveau moyen observé dans certaines données, tandis que l’écart type décrit la variance ou la dispersion des données observées dans cette variable autour de sa moyenne.

Les statistiques descriptives peuvent-elles être utilisées pour faire des inférences ou des prédictions ?

Non. Bien que ces descriptions soient utiles pour comprendre les attributs des données, les techniques statistiques inférentielles – une branche distincte des statistiques – sont nécessaires pour comprendre comment les variables interagissent les unes avec les autres dans un ensemble de données.