ChronoMath, une chronologie des MATHÉMATIQUES
à l'usage des professeurs de mathématiques, des étudiants et des élèves des lycées & collèges

Couple statistique à deux variables pondérées     niveau Sup, BTS    
      » Programme en ligne de calcul des paramètres d'un couple (X,Y) exercice #5 | voir aussi : #1 , #2 , #3 , #4
           Statistique élémentaire à 1 dimension | Régression par la méthode des moindres carrés

Cette page suppose connus le vocabulaire et les résultats fondamentaux de la statistique élémentaire enseignée au collège et au lycée. Il s'agit ici de préciser le vocabulaire utilisé dans l'étude d'une population statistique dont deux caractères quantitatifs X et Y sont récoltés simultanément sous la forme de couples de données (xi, yj). On parle de couple statistique (X,Y). L'objectif principal étant l'estimation de la corrélation et de la dépendance, aux sens usuels et statistiques de ces termes, pouvant exister entre ces caractères. Il est équivalent de parler de statistique double ou de statistique à deux dimensions.

   Il faut distinguer ce cas de celui, plus élémentaire, de la donnée de deux séries à 1 dimension X = (xi, mi) et Y = (yi, ni), i = 1,2, ...n, où X et Y sont récoltées et étudiées séparément, mi et ni désignant respectivement les effectifs des valeurs observées xi et yi. L'objectif étant, in fine, d'établir une corrélation entre X et Y, en particulier une relation fonctionnelle de type Y = f(X). Voyez par exemple cet exercice ou celui-ci ou encore celui-là.

Dans le cas présent, l'objectif est le même mais, comme il a été dit supra, les données récoltées sont des triplets de valeurs (xi, yj,ni,j ), les effectifs observés étant ceux du couple (xi, yj). On résume les données au moyen d'un tableau à double entrée en X et Y.

Par exemple :     (» exercice)

Ci-dessous, le couple (40,7) correspondant à X = 40 et Y = 7, a été observé 16 fois. On peut déduire de ce tableau que X = 40 a été rencontré 42 fois (5 + 16 + 12 + 9) au cours de cette étude statistique : à partir de l'étude d'un couple statistique, on peut déduire les distributions de X et de Y. Comme nous allons le voir, on parle de distribution marginale.
 
  xi  \  yj 6 7 8 9
30 2 4 9 8
40 5 16 12 9
50 15 10 6 4

   Dans cette page, on fera souvent le lien avec le contexte probabiliste où X et Y représenteraient alors des variables aléatoires discrètes définies sur un même espace probabilisé. On remarquera qu'il suffit pour cela de remplacer simplement fréquence par probabilité.


Relativement à la statistique élémentaire à 1 dimension, on remarquera ci-dessous de nombreuses redondances. Le vocabulaire propre aux couples statistiques concerne :

Nuage de points, Regroupement en classes, Effectifs et fréquences :    

  Dans ce cas de deux variables, deux caractères X et Y d'une population statistique de N individus (effectif total) sont observés. On suppose avoir relevé deux séries d'observations, m valeurs (xi) 1≤ i ≤ m de X et p valeurs (yj) 1≤ j ≤ p de Y. On parle de nuage de points que l'on peut représenter dans un repère orthogonal : points Mi,j de coordonnées (xi, yj).

En toute généralité, les index i et j n'ont pas la même amplitude de variation : m ≠ p dans la mesure où les valeurs d'un caractère peuvent être plus fluctuantes que l'autre au sein de la population.

Séries classées :  »

             » opérateur de sommation

» Les auteurs spécialisés en la matière utilisent ou non le qualificatif partiel dans la définition ci-dessus. L'option ici choisie est de l'omettre dans la mesure où tout effectif non qualifié de total sera, par défaut, partiel.

Diagramme des effectifs :    

Le diagramme des effectifs à 2 dimensions est la représentation d'une fonction du type (x,y) →z∈N. Il s'agit donc d'une représentation 3D où les effectifs sont portés en cote (diagramme de droite ci-dessous). Grâce aux ordinateurs et à l'usage des tableurs, on peut facilement obtenir des représentations très sophistiquées. Le diagramme de gauche exprime le diagramme des effectifs en statistique à 1 dimension, du type x→y.

  Effectifs marginaux :   

» Les auteurs spécialisés en la matière utilisent ou non le qualificatif partiel dans les définitions ci-dessus. L'option ici choisie est de l'omettre dans la mesure où tout effectif non qualifié de total sera, par défaut, partiel.

L'ensemble des couples (xi, yj,, ni,j) i = 1,2,...,k est qualifié de distribution d'effectifs. On la résume dans un tableau à double entrée (en bleu) en faisant apparaître les effectifs marginaux (en vert). On voit là le pourquoi de l'appellation marginal(e) : les effectifs marginaux et fréquences marginales (en jaune, définies ci-après) apparaissent en marge du tableau.

xi\ yj y1 y2 ... yj ... yp Effectifs
marginaux
des xi
fréquences
marginales fxi des xi
x1 n1,1 n1,2 ... n1,j ... n1,p n1, n1, /N
x2 n2,1 n2,2 ... n2,j ... n2,p n2, n2, /N
... ... ... ... ... ... ... ... ...
xi ni,1 ni,2 ... ni,j ... ni,p ni, ni, /N
... ... ... ... ... ... ... ... ...
xm nm,1 nm,2 ... nm,j ... nm,p nm, nm, /N
Effectifs
marginaux
des yj
n•,1 n•,2 ... n•,j ... n•,p N 1
fréquences
marginales
fyj
des yj
n•,1 /N n•,2 /N ... n•,j /N ... n•,p /N 1

  Fréquences/Probabilités marginales :   

En marge du tableau ci-dessus (en jaune), sont indiquées les fréquences marginales (probabilités marginales dans le cas aléatoire) des données en X et Y :

La somme sur i et j des fréquences fi,j = ni,j /N des couples (xi, yj) est égale à 1 comme on doit s'y attendre. Elle n'est autre que les sommes des fréquences marginales tant en i que en j, ce qui permet de vérifier les calculs.

dans le cas d'un couple aléatoire, fxi est la probabilité de réalisation de l'événement [X = xi] : il s'agit de la loi de probabilité de X. Remarque analogue concernant les fyj .

  Fréquences conditionnelles :

On constate que fyj/xi , fréquence conditionnelle de yj sachant xi , peut s'écrire ni,j /N ÷ ni,/N , c'est à dire comme quotient de la fréquence du couple (xi, yj) par la fréquence marginale de xi. On en déduit :

fi,j = fxi × fyj/xi

Autrement dit :

La fréquence d'un couple (xi, yj) est le produit de la fréquence marginale de xi par la fréquence conditionnelle de yj sachant xi.

De même :

fi,j = fyj × fxi/yj

La fréquence d'un couple (xi, yj) est le produit de la fréquence marginale de yj par la fréquence conditionnelle de xi sachant yj.

en termes de probabilités conditionnelles, fi,j s'interprète comme la probabilité de l'événement (X = xi )∩(Y = yj) et fxi comme la probabilité de l'événement (X = xi), conduisant à prob[(X = xi )∩(Y = yj)] = prob(X = xi) × prob[(Y = yj)/(X = xi)] :

prob(A∩B) = prob(A) × prob(B/A) = prob(B) × prob(A/B)

  Indépendance statistique de deux caractères X et Y :   

Les caractères X et Y sont dits indépendants lorsque pour tout i et j, on a : fxi/yj = fxi  et  fyj/xi = fyj.

C'est dire que :

les fréquences des valeurs xi de X ne dépendent pas des valeurs yj de Y et de même
les fréquences des valeurs yj de Y ne dépendent pas des valeurs xi de X.

La condition d'indépendance peut aussi s'écrire : fi,j = fxi × fyj, c'est à dire :

pour tout i et j : N × ni,j = ni, × n•,j

en termes de probabilités, p (A∩B) = p(A) × p(B), p(A/B) = p(A), p(B/A) = p(B).

Théorème de Bayes et indépendance en probabilités :  »

  Valeurs moyennes (espérance mathématique) :   

La valeur moyenne d'une série statistique X (reps. Y) est la moyenne X (resp. Y) de ses valeurs pondérées par leurs effectifs marginaux :

        (m1)

N étant un coefficient indépendant de i, on peut le placer en division de ni, (resp. n•,j) permettant d'introduire les fréquences marginales de xi  (resp. yj) :

      (m2)

en termes probabilistes, pour une variable aléatoire X dont les valeurs xi sont prises avec la probabilité pi, = Prob[x = xi] sa valeur moyenne (espérance mathématique), notée E(X), est pondérée par les probabilités : E(X) = Σpixi : la probabilité pi d'apparition de la valeur xi joue dans ce cas le rôle de la fréquence d'apparition de cette valeur.

On peut aussi exprimer X et Y au moyen des fréquences fi,j = ni,j /N des couples (xi, yj) en exprimant ni, (resp. n•,j) par leur expression en fonction des ni,j :

        (m3)

C'est à dire :

     (m4)


a) Justifier que si une série X = (xi) est constante : xi = k pour tout i, alors E(X) = k.
b) Vérifier que l'espérance mathématique est une forme linéaire : E(X + Y) = E(X) + E(Y), E(kX) = k.E(X)

Propriété 0 :   

On vérifiera facilement que :

aX + b = aX + b ; en termes d'espérance mathématique E(aX + b) =aE(X) + b.

Propriété 1 :   

Dans le cas où les séries X et Y sont indépendantes, on a : E(X × Y) = E(X) × E(Y)

Preuve : selon l'hypothèse, on a (indépendance) fi,j = fxi × fyj. En utilisant (m3) la somme sur i,j, c'est à dire E(X × Y) se décompose alors en le produit des sommes Σ fxi × xi et Σ fyj × yj : c'est à dire E(X)E(Y).

  Variance :   

La variance V d'une série statistique ou d'une variable aléatoire X est la moyenne des carrés des écarts de ses valeurs par rapport à sa moyenne :

ou bien, au moyen des fréquences marginales des xi et (resp. yj) :

La formule de Huygens-Koenig est souvent d'une grande utilité dans les calculs :

V(X) = X2 - (X)2  soit,  en termes probabilistes : V(X) = E(X2) - [E(X)]2      (m5)

Propriété 2 :   

Dans le cas où les séries ou les variables aléatoires X et Y sont indépendantes, on a : V(X+Y) = V(X) + V(Y)

Preuve : utiliser la formule ci-dessus en développant les carrés et utiliser la propriété 1.    » m6

Propriété 3 :  

En en utilisant la formule de Koenig, on montrera facilement que pour tout réel a et b :
 

V(aX + b) = a2V(X)

  Écart-type ou déviation standard :   

On utilise les carrés des écarts et non les écarts eux-mêmes afin d'éviter une correction fallacieuse entre des écarts positifs et négatifs. L'usage de l'écart moyen arithmétique est très rarement utilisé car peu opérationnel de par les valeurs absolues et son absence de propriétés additives en présence de variables indépendantes.

L'écart-type ou l'écart quadratique moyen ou encore la déviation standard (» Pearson) d'une série ou variable aléatoire X est la racine carrée de la variance, il est un marqueur de la dispersion "autour" de sa moyenne :

Propriété 4 :    

En conséquence de la propriété 3 et 2 ci-dessus, on a :

  Covariance :   

La covariance cov(X,Y) des séries ou variables aléatoires X et Y est la moyenne des produits (X - X)(Y - Y) des écarts à leur moyenne. On peut en donner l'expression suivante (» m3), avec fi,j = ni,j /N :

fi,j = ni,j /N = Prob[(X,Y) = (xi, yj)] = Prob[(X = xi)  ∩(Y = yj)]

Autre formule pratique :   

On a fi,j × (xi - X)(yj - Y) = fi,j × xiyj - Yfi,j × xi - Xfi,j × yj + X × Y × fi,j. En sommant ces expressions, double sommation dont des éléments sont indépendants de i ou bien de j, on constate que la covariance de X et Y peut s'écrire (» opérateur de sommation), en remarquant que la somme des fréquences fi,j des couples (xi, yj) est égale à 1 :

Ce que l'on peut aussi écrire :

en termes de probabilités et d'espérance mathématique :

cov(X,Y) = E(XY) - E(X)E(Y) : espérance du produit diminué du produit de espérances

En développant cov(X,Y) = XY - X Y, on vérifiera facilement  cette propriété de la covariance :

Propriété 5 :   

cov(aX + b,αY + β) = aα × cov(X,Y)          (p5)

V(X) + V(Y) = V(X) + V(Y) + 2cov(X,Y)       (m6)

Voir aussi une conséquence de (p7) selon laquelle :

cov(X,Y) σ(X)σ(X)  

  Coefficient de corrélation :   

Il s'agit du nombre r = corr(X,Y) défini par :

    

Cet important paramètre statistique est étudié à la page consacrée à Karl Pearson. Énonçons ici deux importantes propriétés :

Propriété 6 :   

Le coefficient de corrélation est invariant par transformation affine (appliquer p4 et p5) :

corr(aX + b,αY + β) = corr(X,Y)

En particulier, il n'est pas modifié si les lois sont centrées et réduites par les transformations :

Propriété 7 :   

Le coefficient de corrélation vérifie la double inégalité : -1 r 1, ou si l'on préfère : | r | ≤ 1.

Preuve : selon p6, on peut se placer dans le cas centré mX = mY = 0. On a r2 = cov(X,Y)/[V(X)V(Y)] = E(XY)2/[V(X)V(Y)] = E(XY)2/[E(X2)E(Y2)]. Considérons maintenant E(X + λY)2. Ce nombre est non négatif pour tout λ réel. Développons :  λ2E(Y2) + 2λE(XY) + E(X2) ≥ 0 quel que soit λ. Vu que E(Y2) > 0 (sinon Y est nulle), le trinôme en  λ sera positif quel que soit λ si son discriminant réduit E(XY)2 - E(X2)E(Y2) est négatif (ou nul). Par suite E(XY)2 ≤  E(X2)E(Y2), ce qui montre que l'on a r21, donc  -1 r1.

Ce calcul montre une nouvelle propriété de la covariance :

cov(X,Y) σ(X)σ(X)

Lien avec le cosinus d'un angle dans un espace vectoriel normé de dimension finie : »

  Incidence d'une transformation affine sur les paramètres définis ci-dessus :   

Dans les calculs statistiques (resp. probabilistes), il est courant de "recentrer" un caractère (resp. une variable aléatoire) par rapport à sa moyenne (resp. espérance mathématique) et/ou de ramener ses valeurs dans un intervalle voulu. Pour cela, une transformation de type affine X → aX + b est utilisée.

C'est le cas, par exemple, dans le cas de la loi Laplace-Gauss que l'on ramène à la loi dite normale de moyenne nulle, d'écart-type 1 (loi centrée réduite) par la transformation X→ (X - m)/σ où m est sa moyenne et σ son écart-type, permettant de dresser des tables de distribution de probabilités.

On résume ici les propriétés rencontrées tout au long de cette page :

  1. aX + b = aX + b  (linéarité); en termes d'espérance mathématique E(aX + b) =aE(X) + b.

  2. V(aX + b) = a2V(X)

  3. σ(aX + b) = aσ(X)

  4. cov(aX + b,αY + β) = aαcov(X,Y)

  5. corr(aX + b,αY + β) = corr(X,Y)


Exemple d'application
Exercice (modifié) inspiré de Statistique dans l'entreprise,  C. Garnier et B. Guilbaud, Éd. Foucher, 1979.

Dans cet exercice purement didactique où la correction est faite pas à pas, on fait appel aux notions et résultats présentés dans cette page. La seule difficulté réside dans la prudence à observer du fait que les variables sont pondérées. Il faut donc utiliser à bon escient les formules appropriées.

On a relevé sur 100 véhicules, la durée des pneumatiques (exprimée en milliers de km) et la puissance fiscale. En notant X = (xi) la série des durées des pneumatiques et Y = (yi) la série des puissances fiscales, on a établi le tableau suivant :

  xi  \  yj 6 7 8 9
30 2 4 9 8
40 5 16 12 9
50 15 10 6 4

oOo

1°/ Calculer les valeurs moyennes (espérances mathématiques) de X, Y et XY.

xi\ yj 6 7 8 9 Eff.
margi. ni,
ni,xi
30 2 4 9 8 23 690
40 5 16 12 9 42 1680
50 15 10 6 4 35 1750
Eff.
margi n•,j
22 30 27 21 100 Total
=
4120
n•,jyj 132 210 216 189 Total =
747
 

Selon le tableau, on a X = 4120/100 = 41,2, Y = 747/100 = 7,47.

Concernant l'espérance de XY, l'usure des pneumatiques, on s'en doute, est liée à la puissance fiscale : on ne peut pas appliquer la formule de l'espérance d'un produit E(XY) = E(X)E(Y) dans le cas de l'indépendance statistique. Preuve en est que l'on n'a pas la condition N x ni,j = ni, x n•,j , loin s'en faut...

On passe donc au calcul de la somme des produits xiyj par leurs effectifs ni,j et on divise par N : XY = 30480/100 = 304,8.

xiyj 180 210 240 270 240 280 320 360 300 350 400 450 Σ
ni,j 2 4 9 8 5 16 12 9 15 10 6 4 100
xiyj.ni,j 360 840 2160 2160 1200 4480 3840 3240 4500 3500 2400 1800 30480

2°/ Déduire de 1° la valeur de cov(X,Y)

On déduit de 1° que cov(X,Y) = XY - X Y = 304,8 - 41,2 x 7,47 = -2,964.

3°/ Calculer les variances et les écarts-types de X et de Y.

Pour ces calculs, on utilise la très pratique formule de Huygens-Koenig (» m5) : V(X) = E(X2) - [E(X)]2

                 
                     
yj2
          \
         xi2

36 49 64 81 Eff.
margi. ni,
ni,xi2
900 2 4 9 8 23 20700
1600 5 16 12 9 42 67200
2500 15 10 6 4 35 87500
Eff.
margi n•,j
22 30 27 21 100 Total 
=
175400
n•,jyj2 792 1470 1728 1701 Total =
5691
 

Selon le tableau, on a :

4°/ Existe-t-il une corrélation pertinente entre les deux caractères observés ?

Le coefficient de corrélation est r = cov(X,Y)/[σ(X)σ(Y)] = -2,964/(7,52 × 1,053) = - 0,374 : | r | = 0,374 < 0,5 n'est pas "proche" de 1. Une corrélation linéaire est donc ici à rejeter.  » Pearson


   Pour en savoir plus :

  1. Tout cours Licence mathématiques L2 ou BTS commerciaux, 2è année.
  2. Probabilités - Combinatoire - Statistique, par Pierre Louquet et A. Vogt, Éd. Armand Colin, Paris - 1971.
  3. La statistique, par André Vessereau, Que sais-je n°281, Éd. P.U.F., Paris, 1988.
  4. Histoire de la statistique, par André Vessereau, Que sais-je n°2527, Éd. P.U.F., Paris, 1990.


© Serge Mehl - www.chronomath.com