Statistique à deux dimensions, couple aléatoire, couple statistique

Cette page suppose connus le vocabulaire et les résultats fondamentaux de la statistique élémentaire enseignée au collège et au lycée. Il s'agit ici de préciser le vocabulaire utilisé dans l'étude d'une population statistique dont deux caractères quantitatifs X et Y sont récoltés simultanément sous la forme de couples de données (x_i, y_j). On parle de couple statistique (X,Y). L'objectif principal étant l'estimation de la corrélation et de la dépendance, aux sens usuels et statistiques de ces termes, pouvant exister entre ces caractères. Il est équivalent de parler de statistique double ou de statistique à deux dimensions.

➔ Il faut distinguer ce cas de celui, plus élémentaire, de la donnée de deux séries à 1 dimension X = (x_i, m_i) et Y = (y_i, n_i), i = 1,2, ...n, où X et Y sont récoltées et étudiées séparément, m_i et n_i désignant respectivement les effectifs des valeurs observées x_i et y_i. L'objectif étant, in fine, d'établir une corrélation entre X et Y, en particulier une relation fonctionnelle de type Y = f(X). Voyez par exemple cet exercice ou celui-ci ou encore celui-là.

Dans le cas présent, l'objectif est le même mais, comme il a été dit supra, les données récoltées sont des triplets de valeurs (x_i, y_j,n_i,j), les effectifs observés étant ceux du couple (x_i, y_j). On résume les données au moyen d'un tableau à double entrée en X et Y.

Ci-dessous, le couple (40,7) correspondant à X = 40 et Y = 7, a été observé 16 fois. On peut déduire de ce tableau que X = 40 a été rencontré 42 fois (5 + 16 + 12 + 9) au cours de cette étude statistique : à partir de l'étude d'un couple statistique, on peut déduire les distributions de X et de Y. Comme nous allons le voir, on parle de distribution marginale.

_xi\^yj	6	7	8	9
30	2	4	9	8
40	5	16	12	9
50	15	10	6	4

➔ Dans cette page, on fera souvent le lien avec le contexte probabiliste où X et Y représenteraient alors des variables aléatoires discrètes définies sur un même espace probabilisé. On remarquera qu'il suffit pour cela de remplacer simplement fréquence par probabilité.

Relativement à la statistique élémentaire à 1 dimension, on remarquera ci-dessous de nombreuses redondances. Le vocabulaire propre aux couples statistiques concerne :

♦ Dans ce cas de deux variables, deux caractères X et Y d'une population statistique de N individus (effectif total) sont observés. On suppose avoir relevé deux séries d'observations, m valeurs (x_i)_{1≤ i ≤ m} de X et p valeurs (y_j)_{1≤ j ≤ p} de Y. On parle de nuage de points que l'on peut représenter dans un repère orthogonal : points M_i,j de coordonnées (x_i_, y_j).

En toute généralité, les index i et j n'ont pas la même amplitude de variation : m ≠ p dans la mesure où les valeurs d'un caractère peuvent être plus fluctuantes que l'autre au sein de la population.

» Les auteurs spécialisés en la matière utilisent ou non le qualificatif partiel dans la définition ci-dessus. L'option ici choisie est de l'omettre dans la mesure où tout effectif non qualifié de total sera, par défaut, partiel.

Le diagramme des effectifs à 2 dimensions est la représentation d'une fonction du type (x,y) →z∈N. Il s'agit donc d'une représentation 3D où les effectifs sont portés en cote (diagramme de droite ci-dessous). Grâce aux ordinateurs et à l'usage des tableurs, on peut facilement obtenir des représentations très sophistiquées. Le diagramme de gauche exprime le diagramme des effectifs en statistique à 1 dimension, du type x→y.

» Les auteurs spécialisés en la matière utilisent ou non le qualificatif partiel dans les définitions ci-dessus. L'option ici choisie est de l'omettre dans la mesure où tout effectif non qualifié de total sera, par défaut, partiel.

L'ensemble des couples (x_i, y_j,, n_i,j)_{i = 1,2,...,k} est qualifié de distribution d'effectifs. On la résume dans un tableau à double entrée (en bleu) en faisant apparaître les effectifs marginaux (en vert). On voit là le pourquoi de l'appellation marginal(e) : les effectifs marginaux et fréquences marginales (en jaune, définies ci-après) apparaissent en marge du tableau.

_xi\^yj	y₁	y₂	...	y_j	...	y_p	Effectifs marginaux des x_i	fréquences marginales f_xides x_i
x₁	n_1,1	n_1,2	...	n_1,j	...	n_1,p	n_1,•	n_1,•_/N
x₂	n_2,1	n_2,2	...	n_2,j	...	n_2,p	n_2,•	n_2,•_/N
...	...	...	...	...	...	...	...	...
x_i	n_i,1	n_i,2	...	n_i,j	...	n_i,p	n_i,•	n_i,•_/N
...	...	...	...	...	...	...	...	...
x_m	n_m,1	n_m,2	...	n_m,j	...	n_m,p	n_m,•	n_m,•_/N
Effectifs marginaux des y_j	n_•,1	n_•,2	...	n_•,j	...	n_•,p	N	1
fréquences marginales f_yj des y_j	n_•,1_/N	n_•,2_/N	...	n_•,j_/N	...	n_•,p_/N	1

En marge du tableau ci-dessus (en jaune), sont indiquées les fréquences marginales (probabilités marginales dans le cas aléatoire) des données en X et Y :

La somme sur i et j des fréquences f_i,j= n_i,j /N des couples (x_i, y_j) est égale à 1 comme on doit s'y attendre. Elle n'est autre que les sommes des fréquences marginales tant en i que en j, ce qui permet de vérifier les calculs.

dans le cas d'un couple aléatoire, f_xi est la probabilité de réalisation de l'événement [X = x_i] : il s'agit de la loi de probabilité de X. Remarque analogue concernant les f_yj .

On constate que f_yj/xi , fréquence conditionnelle de y_j sachant x_i , peut s'écrire n_i,j /N ÷ n_i,•_/N , c'est à dire comme quotient de la fréquence du couple (x_i, y_j) par la fréquence marginale de x_i. On en déduit :

La fréquence d'un couple (x_i, y_j) est le produit de la fréquence marginale de x_i par la fréquence conditionnelle de y_j sachant x_i.

La fréquence d'un couple (x_i, y_j) est le produit de la fréquence marginale de y_j par la fréquence conditionnelle de x_i sachant y_j.

en termes de probabilités conditionnelles, f_i,j s'interprète comme la probabilité de l'événement (X = x_i )∩(Y = y_j) et f_xicomme la probabilité de l'événement (X = x_i), conduisant à prob[(X = x_i )∩(Y = y_j)] = prob(X = x_i) × prob[(Y = y_j)/(X = x_i)] :

Les caractères X et Y sont dits indépendants lorsque pour tout i et j, on a : f_xi/yj= f_xi et f_yj/xi= f_yj.

les fréquences des valeurs x_i de X ne dépendent pas des valeurs y_j de Y et de même
les fréquences des valeurs y_j de Y ne dépendent pas des valeurs x_i de X.

La condition d'indépendance peut aussi s'écrire : f_i,j = f_xi × f_yj, c'est à dire :

en termes de probabilités, p (A∩B) = p(A) × p(B), p(A/B) = p(A), p(B/A) = p(B).

La valeur moyenne d'une série statistique X (reps. Y) est la moyenne X (resp. Y) de ses valeurs pondérées par leurs effectifs marginaux :

N étant un coefficient indépendant de i, on peut le placer en division de n_i,• (resp. n_•,j) permettant d'introduire les fréquences marginales de x_i (resp. y_j) :

en termes probabilistes, pour une variable aléatoire X dont les valeurs x_i sont prises avec la probabilité p_i, = Prob[x = x_i] sa valeur moyenne (espérance mathématique), notée E(X), est pondérée par les probabilités : E(X) = Σp_ix_i : la probabilité p_id'apparition de la valeur x_i joue dans ce cas le rôle de la fréquence d'apparition de cette valeur.

On peut aussi exprimer X et Y au moyen des fréquences f_i,j= n_i,j /N des couples (x_i, y_j) en exprimant n_i,• (resp. n_•,j) par leur expression en fonction des n_i,j :

∗∗∗
a) Justifier que si une série X = (x_i) est constante : x_i = k pour tout i, alors E(X) = k.
b) Vérifier que l'espérance mathématique est une forme linéaire : E(X + Y) = E(X) + E(Y), E(kX) = k.E(X)

Dans le cas où les séries X et Y sont indépendantes, on a : E(X × Y) = E(X) × E(Y)

Preuve : selon l'hypothèse, on a (indépendance) f_i,j = f_xi × f_yj. En utilisant (m3) la somme sur i,j, c'est à dire E(X × Y) se décompose alors en le produit des sommes Σ f_xi × x_i et Σ f_yj × y_j : c'est à dire E(X)E(Y).

La variance V d'une série statistique ou d'une variable aléatoire X est la moyenne des carrés des écarts de ses valeurs par rapport à sa moyenne :

V(X) = X² - (X)² soit, en termes probabilistes : V(X) = E(X²) - [E(X)]² (m5)

Dans le cas où les séries ou les variables aléatoires X et Y sont indépendantes, on a : V(X+Y) = V(X) + V(Y)

Preuve : utiliser la formule ci-dessus en développant les carrés et utiliser la propriété 1. » m6

En en utilisant la formule de Koenig, on montrera facilement que pour tout réel a et b :

On utilise les carrés des écarts et non les écarts eux-mêmes afin d'éviter une correction fallacieuse entre des écarts positifs et négatifs. L'usage de l'écart moyen arithmétique est très rarement utilisé car peu opérationnel de par les valeurs absolues et son absence de propriétés additives en présence de variables indépendantes.

L'écart-type ou l'écart quadratique moyen ou encore la déviation standard (» Pearson) d'une série ou variable aléatoire X est la racine carrée de la variance, il est un marqueur de la dispersion "autour" de sa moyenne :

La covariance cov(X,Y) des séries ou variables aléatoires X et Y est la moyenne des produits (X - X)(Y - Y) des écarts à leur moyenne. On peut en donner l'expression suivante (» m3), avec f_i,j= n_i,j /N :

On a f_i,j × (x_i - X)(y_j - Y) = f_i,j × x_iy_j - Yf_i,j × x_i - Xf_i,j × y_j + X × Y × f_i,j. En sommant ces expressions, double sommation dont des éléments sont indépendants de i ou bien de j, on constate que la covariance de X et Y peut s'écrire (» opérateur de sommation), en remarquant que la somme des fréquences f_i,j des couples (x_i, y_j) est égale à 1 :

cov(X,Y) = E(XY) - E(X)E(Y) : espérance du produit diminué du produit de espérances

En développant cov(X,Y) = XY - X Y, on vérifiera facilement cette propriété de la covariance :

Cet important paramètre statistique est étudié à la page consacrée à Karl Pearson. Énonçons ici deux importantes propriétés :

Le coefficient de corrélation est invariant par transformation affine (appliquer p4 et p5) :

Le coefficient de corrélation vérifie la double inégalité : -1 ≤ r ≤ 1, ou si l'on préfère : | r | ≤ 1.

Preuve : selon p6, on peut se placer dans le cas centré m_X = m_Y = 0. On a r² = cov(X,Y)/[V(X)V(Y)] = E(XY)²/[V(X)V(Y)] = E(XY)²/[E(X²)E(Y²)]. Considérons maintenant E(X + λY)². Ce nombre est non négatif pour tout λ réel. Développons : λ²E(Y²) + 2λE(XY) + E(X²) ≥ 0 quel que soit λ. Vu que E(Y²) > 0 (sinon Y est nulle), le trinôme en λ sera positif quel que soit λ si son discriminant réduit E(XY)² - E(X²)E(Y²) est négatif (ou nul). Par suite E(XY)² ≤ E(X²)E(Y²), ce qui montre que l'on a r² ≤ 1, donc -1 ≤ r ≤ 1.

Lien avec le cosinus d'un angle dans un espace vectoriel normé de dimension finie : »

♦ Incidence d'une transformation affine sur les paramètres définis ci-dessus :

Dans les calculs statistiques (resp. probabilistes), il est courant de "recentrer" un caractère (resp. une variable aléatoire) par rapport à sa moyenne (resp. espérance mathématique) et/ou de ramener ses valeurs dans un intervalle voulu. Pour cela, une transformation de type affine X → aX + b est utilisée.

C'est le cas, par exemple, dans le cas de la loi Laplace-Gauss que l'on ramène à la loi dite normale de moyenne nulle, d'écart-type 1 (loi centrée réduite) par la transformation X→ (X - m)/σ où m est sa moyenne et σ son écart-type, permettant de dresser des tables de distribution de probabilités.

∗∗∗ Exemple d'application
Exercice (modifié) inspiré de Statistique dans l'entreprise, C. Garnier et B. Guilbaud, Éd. Foucher, 1979.

Dans cet exercice purement didactique où la correction est faite pas à pas, on fait appel aux notions et résultats présentés dans cette page. La seule difficulté réside dans la prudence à observer du fait que les variables sont pondérées. Il faut donc utiliser à bon escient les formules appropriées.

On a relevé sur 100 véhicules, la durée des pneumatiques (exprimée en milliers de km) et la puissance fiscale. En notant X = (x_i) la série des durées des pneumatiques et Y = (y_i) la série des puissances fiscales, on a établi le tableau suivant :

_xi\^yj	6	7	8	9
30	2	4	9	8
40	5	16	12	9
50	15	10	6	4

oOo

1°/ Calculer les valeurs moyennes (espérances mathématiques) de X, Y et XY.

_xi\^yj	6	7	8	9	Eff. margi. n_i,•	n_i,•x_i
30	2	4	9	8	23	690
40	5	16	12	9	42	1680
50	15	10	6	4	35	1750
Eff. margi n_•,j	22	30	27	21	100	Total = 4120
n_•,jy_j	132	210	216	189	Total = 747

Selon le tableau, on a X = 4120/100 = 41,2, Y = 747/100 = 7,47.

Concernant l'espérance de XY, l'usure des pneumatiques, on s'en doute, est liée à la puissance fiscale : on ne peut pas appliquer la formule de l'espérance d'un produit E(XY) = E(X)E(Y) dans le cas de l'indépendance statistique. Preuve en est que l'on n'a pas la condition N x n_i,j = n_i,• x n_•,j , loin s'en faut...

On passe donc au calcul de la somme des produits x_iy_j par leurs effectifs n_i,j et on divise par N : XY = 30480/100 = 304,8.

x_iy_j	180	210	240	270	240	280	320	360	300	350	400	450	Σ
n_i,j	2	4	9	8	5	16	12	9	15	10	6	4	100
x_iy_j.n_i,j	360	840	2160	2160	1200	4480	3840	3240	4500	3500	2400	1800	30480

2°/ Déduire de 1° la valeur de cov(X,Y)

On déduit de 1° que cov(X,Y) = XY - X Y = 304,8 - 41,2 x 7,47 = -2,964.

3°/ Calculer les variances et les écarts-types de X et de Y.

Pour ces calculs, on utilise la très pratique formule de Huygens-Koenig (» m5) : V(X) = E(X²) - [E(X)]²

yj^{2 \} xi²	36	49	64	81	Eff. margi. n_i,•	n_i,•x_i²
900	2	4	9	8	23	20700
1600	5	16	12	9	42	67200
2500	15	10	6	4	35	87500
Eff. margi n_•,j	22	30	27	21	100	Total = 175400
n_•,jy_j²	792	1470	1728	1701	Total = 5691

Selon le tableau, on a :

E(X²) = 175400/100 = 1754. Donc V(X) = 1754 - 41,2² = 56,56; d'où σ(X) ≅ 7,52.
E(Y²) = 5691/100 = 56,91. Donc V(Y) = 56,91 - 7,47² ≅ 1,11; d'où σ(Y) = 1,053.

4°/ Existe-t-il une corrélation pertinente entre les deux caractères observés ?

Le coefficient de corrélation est r = cov(X,Y)/[σ(X)σ(Y)] = -2,964/(7,52 × 1,053) = - 0,374 : | r | = 0,374 < 0,5 n'est pas "proche" de 1. Une corrélation linéaire est donc ici à rejeter. » Pearson