Séries statistiques à une et deux variables

Les statistiques à une variable, étudiées en classe de première, permettent de chiffrer une situation, en calculant la moyenne, l'écart type, la médiane, les quartiles, etc. Elles permettent aussi de donner des représentations graphiques des données : diagrammes en bâtons, circulaires ou en boîtes, histogrammes, etc.
En considérant deux variables on peut observer s'il y a une corrélation entre elles : le volume des ventes d'un produit dépend de son prix, la température dépend de l'altitude, etc.
Lorsque l'une des variables est le temps, on dit que la série est chronologique. Une telle série permet, par exemple, d'estimer le chiffre d'affaires ou le bénéfice d'une entreprise à une date donnée future.
1. Comment calculer la moyenne et l'écart type ?
Du tableau statistique suivant :
Valeurs de la variable
x1

xi

Total
Effectifs
n1

ni

N

On déduit :
  • la moyenne : \bar{x}=\frac{n_{1}\times{x_{1}}+\ldots+n_{i}\times{x_{i}}+\ldots}{N} , soit \bar{x}=\frac{\Sigma{n_{i}x_{i}}}{N} ;
  • la variance : V=\frac{\Sigma{n_{i}\times(\bar{x}-x_{i})^{2}}}{N} ou encore, V=\frac{\Sigma{n_{i}x_{i}^{2}}}{N}-\bar{x}^{2} ;
  • l'écart type : \sigma=\sqrt{V}.
La variance est la moyenne des carrés des écarts à la moyenne. Plus la variance est petite et plus la série est homogène, plus elle est grande et plus la série est hétérogène.
La moyenne est représentative si :
  • l'intervalle [\bar{x}-\sigma\,;\,\bar{x}+\sigma] contient plus des deux-tiers de l'effectif,
  • l'intervalle [\bar{x}-2\sigma\,;\,\bar{x}+2\sigma], plus de 95 %,
  • et l'intervalle [\bar{x}-3\sigma\,;\,\bar{x}+3\sigma], plus de 99 %.
Exercice n°1 Exercice n°2
2. Comment réaliser un diagramme en boîte ?
Un diagramme en boîte est un segment gradué dont les extrémités correspondent aux valeurs extrêmes de la série. On y reporte la médiane et les deux autres quartiles.
La médiane est la valeur m de la variable qui partage la série en deux séries de même effectif :
  • si l'effectif n est impair alors la médiane a le rang \frac{n+1}{2} ;
  • si l'effectif est pair, la médiane est la moyenne des valeurs de rangs \frac{n}{2} et \frac{n}{2}+1.
Le quartile Q1 se situe au quart de l'effectif et le quartile Q3 aux trois-quarts.
La longueur Q1Q3 s'appelle l'intervalle interquartile.
On peut résumer la position de la médiane et des deux autres quartiles sur un diagramme en boîte, ou boîte à moustaches.
Séries statistiques à une et deux variables - illustration 1
3. Comment calculer le point moyen d'un nuage de points ?
Du tableau statistique suivant :
Valeurs de la première variable
x1

xi

xn
Valeurs de la seconde variable
y1

yi

yn

On déduit :
  • par le dessin : le nuage de points M(xi ; yi) ;
  • par le calcul : le point moyen \mathrm{G}\,(\bar{x}\,;\,\bar{y})
  • avec \bar{x}=\frac{\Sigma{x_{i}}}{n} et \bar{y}=\frac{\Sigma{y_{i}}}{n}.
L'abscisse du point moyen est la moyenne des abscisses des points du nuage et son ordonnée, la moyenne de leurs ordonnées.
Exercice n°4
4. Comment déterminer la droite de régression linéaire ?
La droite de régression linéaire de y en x est la droite qui passe le plus près des points du nuage.
Avec la calculatrice, on obtient son équation en entrant les valeurs de la première variable en liste 1 et les valeurs de la seconde en liste 2. On sélectionne alors la fonction « linreg ».
Trois éléments s'affichent : le coefficient directeur a, l'ordonnée à l'origine b et le coefficient de corrélation linéaire r.
Le coefficient r indique si les points M(xi ; yi) sont suffisamment proches de l'alignement pour assimiler le nuage de points à une droite.
On choisit généralement pour condition : −1 inférieur ou égal r < −0,9 ou 0,9 < r inférieur ou égal 1.
Si la condition est vérifiée, on peut utiliser la fonction affine associée à la droite de régression linéaire pour estimer la valeur y correspondant à une valeur quelconque x.
Exercice n°5Exercice n°6Exercice n°7
À retenir
• Séries statistiques à une variable
Moyenne : \bar{x} = \frac{{n_1\times x_1+ ... + n_i\times x_i+ ...}}{N}, soit \bar{x} = \frac{{\sum {n_i x_i } }}{N}.
Variance : V = \frac{\sum {n_i \times(\bar{x}- x_i )} }{N} ou encore, V = \frac{\sum {n_i x_i}}{N} - \bar{x}^2.
Écart type : \sigma=\sqrt{V}.
La médiane est la valeur m de la variable, qui partage la série en deux séries de même effectif.
Le premier quartile Q1 se situe au quart de l'effectif et le troisième quartile Q3 aux trois-quarts. La longueur Q1Q3 s'appelle l'intervalle interquartiles.
• Séries statistiques à deux variables
Point moyen du nuage : G(\bar{x}\,;\,\bar{y}) avec \bar{x} = \frac{\sum {x_i }}{N} et \bar{y} = \frac{\sum {y_i }}{N}.
La droite de régression linéaire est la droite qui passe le plus près des points du nuage. (La calculatrice donne son équation en entrant les valeurs de la première variable en liste 1 et les valeurs de la seconde en liste 2, puis en utilisant la fonction « linreg ».)
Le coefficient de corrélation linéaire, indiqué par la calculatrice, doit-être le plus proche possible de −1 ou 1 (valeurs qui correspondent à l'alignement parfait des points du nuage).
Exercice n°1
Le tableau répertorie la taille en centimètres de 60 enfants, âgés de 1 an.
Tailles en cm
67
68
69
70
71
72
73
74
75
76
77
78
Effectifs
2
3
4
8
9
10
7
7
5
3
1
1

Le couple (moyenne ; écart type) est égal à :
Cochez la bonne réponse.
(72 ; 2,48)
(72 ; 2,46)
(72,5 ; 2,45)
\Sigma{n_{i}x_{i}}=67\times{2}+68\times{3}+\ldots\, +78\times{1}=4\,320
\bar{x}=\frac{4\,320}{60}=72.
\Sigma{n_{i}x^{2}_{i}}=67^{2}\times{2}+68^{2}\times{3}+\ldots\,+78^{2}\times{1}=311\,404
V=\frac{311\,404}{60}-72^{2}\approx6,067.
\sigma=\sqrt{6,067}
\sigma\approx{2,46}.
Exercice n°2
Le tableau répertorie la taille en centimètres de 60 enfants, âgés de 1 an.
Tailles en cm
67
68
69
70
71
72
73
74
75
76
77
78
Effectifs
2
3
4
8
9
10
7
7
5
3
1
1

Le pourcentage de l'effectif dans l'intervalle [\bar{x}-\sigma\,;\,\bar{x}+\sigma] est :
Cochez la bonne réponse.
56,67 %
61,67 %
68,33 %
[\bar{x}-\sigma\,;\,\bar{x}-\sigma] = [72 − 2,46 ; 72 + 2,46] = [69,54 ; 74,46]
Cet intervalle regroupe les enfants de 70, 71, 72, 73 et 74 cm. Soit 41 enfants.
\frac{41}{60}\times{100}=68,33\;\%.
Exercice n°3
Le tableau ci-après indique l'évolution du chiffre d'affaires, en millions d'euros, d'une entreprise sur quatre années :
Années
1
2
3
4
CA en millions d'euros
1,2
2
2,5
3,5

Les coordonnées du point moyen sont :
Cochez la bonne réponse.
G(10 ; 9,2)
G(5 ; 4,6)
G(2,5 ; 2,3)
G\left(\frac{1+2+3+4}{4}\,;\,\frac{1,2+2+2,5+3,5}{4}\right), d'où G(2,5 ; 2,3).
Exercice n°4
Le tableau ci-après indique l'évolution du chiffre d'affaires, en millions d'euros, d'une entreprise sur quatre années :
Années
1
2
3
4
CA en millions d'euros
1,2
2
2,5
3,5

Le coefficient de corrélation linéaire est :
Cochez la bonne réponse.
r = 0,97
r = 0,98
r = 0,99
Sur la calculatrice on rentre en liste 1 la première ligne du tableau statistique et en liste 2 la seconde ligne. En appliquant la fonction « linreg(ax + b) », on obtient r = 0,992417…, soit r = 0,99 au centième près.
Exercice n°5
Le tableau ci-après indique l'évolution du chiffre d'affaires, en millions d'euros, d'une entreprise sur quatre années :
Années
1
2
3
4
CA en millions d'euros
1,2
2
2,5
3,5

La droite de régression de y en x a pour équation :
Cochez la bonne réponse.
y = 2,5x + 2,3
y = 0,45x + 0,74
y = 0,74x + 0,45
Sur la calculatrice on lit : a = 0,74 et b = 0,45.
Exercice n°6
Le tableau ci-après indique l'évolution du chiffre d'affaires, en millions d'euros, d'une entreprise sur quatre années :
Années
1
2
3
4
CA en millions d'euros
1,2
2
2,5
3,5

Pour la 5e année on peut prévoir un chiffre d'affaires de :
Cochez la bonne réponse.
4,10 millions d'euros
4,15 millions d'euros
4,20 millions d'euros
0,74 × 5 + 0,45 = 4,15. Soit une prévision de 4,15 millions d'euros pour la 5e année.