
|
|
Mathématicien,
physicien, historien, Pearson eut Burnside, Cayley
et Stockes comme professeurs à l'université de
Cambridge. Il fut grandement
impressionné par son compatriote Francis Galton,
éminent savant,
physiologiste,
fondateur de l'eugénisme visant à
parfaire les caractères génétiques de l'espèce humaine.
Il sera d'ailleurs l'éditeur de Biometrika, fondé par
Galton, et à l'origine des Annals of Eugenics
(1925).
L'influence de ce dernier, qui fut tuteur de sa thèse (1879), le conduit finalement vers la statistique et il enseignera à l'University College de Londres après avoir poursuivi des études en sciences humaines en Allemagne (métaphysique, darwinisme).
Très importants travaux sur les distributions statistiques, la corrélation, les problèmes d'estimation sur échantillons pour lesquels il collabora avec Gosset, alias Student et Fisher (malgré des désaccords). Pearson est souvent considéré comme le fondateur de la statistique moderne. Son fils Egon Sharpe fut également statisticien.
| Loi de Pearson, dite loi du c2 , lire « khi 2 » , test du c2 : |
Introduite par Pearson en 1900, cette célèbre loi de probabilités fut en fait préalablement étudiée par l'astronome et géodésien allemand Friedrich Robert Helmert (1843-1917), auteur d'une Théorie mathématique et physique de géodésie supérieure (1880) dans le cadre de la théorie des erreurs.
Son usage permet de confirmer ou infirmer avec un seuil de
sûreté choisi par le statisticien (exprimé en termes de pourcentages), une
hypothèse faite sur un phénomène aléatoire. La probabilité
que
soit inférieur à un
réel a (seuil de probabilité) donné positif est :

| On doit en outre à Pearson : |
Le terme de standard deviation (1893) pour signifier ce que l'on appelle aujourd'hui l'écart-type, racine carrée de la variance :
La notion
d'histogramme
: représentation graphique d'une série, dont les
valeurs sont regroupée en classes, au moyen de rectangles
dont les aires sont proportionnelles à l'effectif (où -ce qui revient
au même- à la fréquence) des classes.
on confond souvent diagramme
en barres et histogramme. Dans un diagramme en barres (pour des classes de même
amplitude) ou en bâtons (série de valeurs), la hauteur de la
barre (ou du bâton) est proportionnelle (voire égale, selon l'échelle
utilisée) à l'effectif de la classe (ou de la valeur).
L'histogramme
est à rapprocher du diagramme circulaire dont les angles
des secteurs sont proportionnels aux effectifs (ou pourcentages, ou fréquences)
des classes. Or l'aire d'un secteur est proportionnel à son angle.
Ainsi dans un diagramme
circulaire ou un histogramme, une surface deux
fois plus importante (aire double) signifie une fréquence deux fois
plus grande.
Le coefficient de corrélation, aussi appelé coefficient de Bravais-Pearson a été préalablement étudié par Galton. Si X et Y sont deux séries statistiques de n données xi et yi, de variances respectives V(X) et V(Y), de covariance cov(X,Y), il est défini par :

Compris entre -1 et 1, il indiquera une présomption de liaison linéaire entre les deux séries d'autant qu'il sera proche de 1 en valeur absolue. Si r = ±1, X et Y sont liés par une relation affine de type Y = aX + b.
On peut écrire le coefficient de corrélation r comme le quotient de cov(X,Y) par le produit sxsy où sx et sy sont les écart-types de X et Y. On remarque alors que l'on a r = cov(X',Y') où X' et Y' désignent les formes centrées et réduites de X et Y :

En termes de probabilité, si les phénomènes X et Y désignent des variables aléatoires indépendantes, r est nul. L'indépendance entre X et Y se détermine par un calcul sur les fréquences d'apparition des phénomènes X et Y (calcul des fréquences marginales).
![]() |
|