Test t de Student

Le test t de Student est un test statistique utilisé pour déterminer si les moyennes de deux groupes sont significativement différentes l’une de l’autre. Ce test est couramment utilisé lorsque l’on travaille avec des échantillons de petite taille et que l’on souhaite comparer les moyennes de deux populations.

Hypothèses du Test t de Student

Le test t de Student repose sur deux hypothèses :

Hypothèse nulle (H₀) : Les deux moyennes sont égales, c’est-à-dire qu’il n’y a pas de différence significative entre les deux groupes.
- H₀ : μ₁ = μ₂
Hypothèse alternative (H₁) : Les deux moyennes ne sont pas égales, c’est-à-dire qu’il existe une différence significative entre les deux groupes.
- H₁ : μ₁ ≠ μ₂ (test bilatéral) ou H₁ : μ₁ > μ₂ ou μ₁ < μ₂ (test unilatéral)

Types de Tests t

Il existe plusieurs types de tests t, en fonction de la nature des échantillons :

Test t pour échantillons indépendants :
- Utilisé lorsque les deux groupes sont indépendants l’un de l’autre.
- Exemple : Comparer les scores de deux groupes d’étudiants qui ont suivi des méthodes d’enseignement différentes.
Test t pour échantillons appariés :
- Utilisé lorsque les deux groupes sont appariés ou liés. Cela signifie que les observations dans le premier groupe sont directement liées aux observations dans le second groupe.
- Exemple : Comparer la performance d’un groupe avant et après un traitement.
Test t pour échantillon unique :
- Utilisé pour tester si la moyenne d’un échantillon est significativement différente d’une valeur connue ou hypothétique (par exemple, une moyenne théorique).
- Exemple : Comparer la moyenne des scores d’un groupe avec une valeur de référence.

Calcul du Test t de Student

Le statistique t est calculée à l’aide de la formule suivante pour les échantillons indépendants :

$t = \frac{\bar{X}_1 – \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$

où :

$\bar{X}_1, \bar{X}_2$ $X ˉ_{1}, X ˉ_{2}$ sont les moyennes des deux groupes,
$s_1^2, s_2^2$ $s_{12}, s_{22}$ sont les variances des deux groupes,
$n_1, n_2$ $n_{1}, n_{2}$ sont les tailles des échantillons des deux groupes.

Interprétation des résultats

Après avoir calculé le score t, il est comparé à la valeur critique à partir d’une table de t de Student en fonction des degrés de liberté et du niveau de signification choisi (α).

Degrés de liberté :

$df = n_1 + n_2 – 2$ $df = n_{1} + n_{2} - 2$ pour les échantillons indépendants.
Si la valeur p (probabilité associée au test t) est inférieure au niveau de signification (par exemple, p < 0.05), on rejette l’hypothèse nulle (H₀) et conclut qu’il y a une différence significative entre les deux groupes.
Si la valeur p est supérieure au niveau de signification, on ne rejette pas l’hypothèse nulle, ce qui suggère qu’il n’y a pas de différence significative entre les groupes.

Fonctions :

stats.ttest_ind()

La fonction stats.ttest_ind() de SciPy effectue un test t de Student pour deux échantillons indépendants. Il est utilisé pour tester l'hypothèse nulle selon laquelle les moyennes de deux échantillons indépendants sont égales. Le test retourne la statistique t et la p-valeur associée. Si la p-valeur est inférieure au niveau de signification (souvent 0,05), cela suggère que les moyennes des deux échantillons sont significativement différentes.

Importation :

from scipy import stats

Attributs :

Nom	Type	Description
a	array-like	Le premier échantillon de données.
b	array-like	Le deuxième échantillon de données.
equal_var	bool, optionnel	Si `True`, on suppose que les variances des deux échantillons sont égales. Si `False`, une correction de Welch est appliquée. Par défaut, c'est `True`.
alternative	str, optionnel	Type d'hypothèse alternative à tester. Les options sont `'two-sided'`, `'less'`, ou `'greater'`. Par défaut, c'est `'two-sided'`.

Exemple de code :

from scipy import stats
import numpy as np

# Création de deux échantillons d'exemple
sample_1 = np.array([23, 21, 19, 22, 20, 24, 25])
sample_2 = np.array([30, 29, 31, 28, 30, 29, 32])

# Réalisation du test t de Student
t_stat, p_value = stats.ttest_ind(sample_1, sample_2)

# Affichage de la statistique t et de la p-valeur
print(f'Statistique t: {t_stat}')
print(f'P-valeur: {p_value}')

Explication du code :

La ligne from scipy import stats importe le module stats de la bibliothèque SciPy, qui contient des fonctions statistiques pour effectuer des tests, calculer des distributions, etc.

import numpy as np importe la bibliothèque NumPy, renommée ici en np, qui est utilisée pour les calculs numériques et la manipulation de tableaux multidimensionnels.

Création de deux échantillons d'exemple

sample_1 = np.array([23, 21, 19, 22, 20, 24, 25]) crée un tableau NumPy représentant le premier échantillon de données, avec les valeurs 23, 21, 19, 22, 20, 24, 25.

sample_2 = np.array([30, 29, 31, 28, 30, 29, 32]) crée un second tableau NumPy représentant le deuxième échantillon de données, avec les valeurs 30, 29, 31, 28, 30, 29, 32.

Réalisation du test t de Student

t_stat, p_value = stats.ttest_ind(sample_1, sample_2) effectue un test t de Student pour échantillons indépendants afin de comparer les moyennes de deux groupes. Ce test évalue si les différences observées entre les deux échantillons sont statistiquement significatives.

Le test retourne deux valeurs :

t_stat : la statistique t qui mesure la différence entre les moyennes des deux échantillons par rapport à la variance au sein de chaque échantillon.
p_value : la p-valeur qui indique la probabilité que les résultats observés soient dus au hasard. Si cette valeur est inférieure à un seuil (souvent 0.05), l'hypothèse nulle est rejetée, ce qui signifie qu'il existe une différence significative entre les deux échantillons.

Affichage de la statistique t et de la p-valeur

print(f'Statistique t: {t_stat}') affiche la statistique t calculée pour le test t de Student.

print(f'P-valeur: {p_value}') affiche la p-valeur associée au test.