Variance

La variance est une mesure fondamentale de la statistique descriptive qui quantifie la dispersion d’un ensemble de données par rapport à leur moyenne. Elle permet de déterminer dans quelle mesure les valeurs observées s’écartent de la tendance centrale.

Mathématiquement, la variance est la moyenne des carrés des écarts entre chaque valeur et la moyenne de l’ensemble. Plus la variance est élevée, plus les données sont dispersées. À l’inverse, une variance faible indique que les données sont proches de la moyenne.

La variance joue un rôle central en probabilités, en analyse de risque, en apprentissage automatique (machine learning), et dans de nombreuses autres disciplines où la compréhension de la variabilité est essentielle. Elle constitue également la base du calcul de l’écart-type, qui en est la racine carrée.

Dans cette page, vous découvrirez comment calculer la variance, l’interpréter, et comprendre sa relation avec d’autres mesures de dispersion. Vous verrez également dans quels contextes elle est utile et comment elle peut être visualisée pour enrichir l’analyse de vos données.

Fonctions :

  • np.var()

    Cette fonction de la bibliothèque NumPy calcule la variance des éléments d’un tableau. La variance est une mesure de la dispersion, égale à l'écart type au carré. Elle indique à quel point les valeurs s'écartent de la moyenne.

    Importation :

    import numpy as np

    Attributs :

    Nom Type Description
    a array_like Tableau d'entrée contenant les données dont on veut la variance.
    axis int ou tuple d’int, optionnel Axe ou axes le long desquels la variance est calculée. Par défaut, elle est calculée sur l’ensemble du tableau.
    dtype data-type, optionnel Type des données à utiliser pour le calcul. Permet de contrôler la précision du résultat.
    out ndarray, optionnel Emplacement où stocker le résultat. Doit avoir la même forme que la sortie attendue.
    ddof int, optionnel Degré de liberté Delta. Par défaut à 0. Pour la variance d’échantillon, on utilise 1 (division par N-1).
    keepdims bool, optionnel Si True, les axes réduits sont conservés dans le résultat comme dimensions de taille un.

    Exemple de code :

    import numpy as np
    
    data = np.array([1, 2, 3, 4, 5])
    variance_population = np.var(data)
    variance_echantillon = np.var(data, ddof=1)
    
    print("Variance (population) :", variance_population)
    print("Variance (échantillon) :", variance_echantillon)
    Résultat du code

    Explication du code :

    import numpy as np importe la bibliothèque numpy, renommée ici en np pour faciliter son utilisation dans le code.

    Création d'un tableau de données

    Le code crée un tableau data de dimension 1x5 à l'aide de np.array(). Ce tableau contient les éléments [1, 2, 3, 4, 5].

    Calcul de la variance pour la population

    La fonction np.var() calcule la variance des éléments d'un tableau. En appelant np.var(data), le code calcule la variance de tous les éléments du tableau data, en considérant qu'il s'agit d'une population entière (aucune correction pour les degrés de liberté).

    Le résultat est assigné à la variable variance_population et est ensuite affiché via print("Variance (population) :", variance_population).

    Calcul de la variance pour un échantillon

    En spécifiant ddof=1 dans l'appel de np.var(data, ddof=1), le code calcule la variance en ajustant les degrés de liberté pour un échantillon. Cela permet de diviser par n-1 au lieu de n, ce qui est couramment utilisé pour les échantillons afin de corriger le biais dans l'estimation de la variance de la population.

    Le résultat est assigné à la variable variance_echantillon et est ensuite affiché via print("Variance (échantillon) :", variance_echantillon).