La notion de fréquence – Simulation et fluctuation d'échantillonnage

Pas de journal écrit ou parlé sans son sondage quotidien, avec son lot de pourcentages et de commentaires. Mais ces sondages sont-ils fiables ? Nous allons présenter ici les notions qui les sous-tendent (celles de fréquence et de simulation) et préciser les limites de leurs résultats.
1. Comment établir une distribution des fréquences d'une série statistique ?
• On part d'une série statistique représentée par un tableau du type :
Valeur de X
x_1
x_2
...
x_p
 
Effectif
n_1
n_2
...
n_p
n

On calcule pour chaque valeur x_i de la série la fréquence relative f_i.
C'est le rapport \frac{\rm{effectif\: de\: la\: valeur}}{\rm{taille\: de\: la\: population}}, soit : f_i = \frac{{n_i}}{n}.
• La distribution des fréquences d'une série statistique est l'ensemble des fréquences de toutes les valeurs de la série. On la donne sous forme d'un tableau :
Valeur de X
x_1
x_2
...
x_p
 
Fréquence
f_1
f_2
...
f_p
1

• Plus généralement, on appelle fréquence d'un événement la somme des fréquences des valeurs qui constituent cet événement.
Exercice n°1Exercice n°2
2. Comment observer une fluctuation d'échantillonnage ?
• Quand on veut connaître la proportion p d'un caractère dans une grande population, il est long et coûteux de faire une enquête sur tous les individus. On prélève alors un échantillon.
Prélever un échantillon de taille n dans la population, c'est prendre simplement n individus (ou répéter n fois une expérience dans des conditions identiques) sur lesquels on mesure le caractère étudié.
La série statistique composée des n résultats obtenus constitue un échantillon de taille n.
• Cette méthode ne peut pas fournir la valeur exacte de p, car des échantillons différents peuvent donner des proportions différentes.
Si on dispose de plusieurs échantillons, on peut observer ces différences sur leurs distributions de fréquences. C'est ce qu'on appelle la fluctuation d'échantillonnage et il suffit, pour l'observer, de prélever deux échantillons.
Exercice n°3
3. Comment interpréter un sondage ?
• Nous venons de dire qu'à partir d'un échantillon, on ne peut pas connaître exactement la proportion p d'un caractère sur toute la population entière.
Cependant, si on respecte certaines conditions, la proportion observée p_e sur l'échantillon est une bonne valeur approchée de la proportion p.
Ces conditions sont les suivantes :
– il faut choisir les individus au hasard ;
– il faut remettre à chaque fois l'individu choisi dans la population (ou répéter l'expérience dans des conditions identiques) ;
– il faut que la taille n de l'échantillon soit assez grande, on doit avoir n \ge 30.
• Dans ces conditions, on peut même établir que, dans 93 % des cas (des échantillons observés),
p_e - \frac{1}{{\sqrt n}} \le p \le p_e + \frac{1}{{\sqrt n }}, c'est-à-dire que p_e est une valeur approchée de p à \frac{1}{{\sqrt n }} près.
Exercice n°4Exercice n°5
4. Pourquoi et comment simuler une expérience ?
• Une expérience aléatoire est une expérience dont l'issue (le résultat) dépend du hasard.
Simuler une expérience aléatoire, c'est remplacer cette expérience par une autre expérience aléatoire qui permet de produire les résultats que l'on obtiendrait en réalisant effectivement la première expérience.
• On simule une expérience quand l'expérience initiale est difficile à réaliser parce que trop coûteuse, trop longue ou difficilement observable.
En simulant une expérience plusieurs fois (c'est-à-dire en prélevant plusieurs échantillons), on espère tirer de la distribution des fréquences et de leur fluctuation quelques enseignements.
• Pour simuler une expérience, on peut utiliser une calculatrice et sa touche RANDOM ou un tableur (Excel par exemple avec sa fonction ALEA).
La fonction RANDOM d'une calculatrice nous donne au hasard un nombre entre 0 et 1 avec 10 chiffres après la virgule.
Exemple
Dans une urne, on a placé 35 jetons rouges et 65 jetons verts. L'expérience consiste à tirer, de cette urne, 10 jetons avec remise. N'ayant ni urne, ni jeton sous la main, comment peut-on simuler cette expérience ?
On utilise la calculatrice : en appelant 10 fois de suite la fonction RANDOM, on obtient 10 nombres décimaux compris entre 0 et 1. On considère pour chaque nombre les deux premiers chiffres après la virgule. Si le nombre ainsi formé est compris entre 1 et 35, on considère qu'on a effectué un tirage d'un jeton rouge, sinon on considère que l'on a tiré un jeton vert. On peut ainsi simuler autant de fois que l'on veut notre expérience.
Exercice n°6
À retenir
• La fréquence relative d'une valeur d'une série statistique est donnée par le rapport \frac{\rm{effectif\: de\: la\: valeur}}{\rm{taille\: de\: la\: population}}.
• La proportion observée p_e d'un caractère sur un échantillon de taille n est une valeur approchée à \frac{1}{{\sqrt n }} près de la proportion p du caractère sur la population entière.
• La touche RANDOM sur la calculatrice permet de simuler des expériences aléatoires.
Cochez la bonne réponse.
« O mathématiques sévères, je ne vous ai pas oubliées, depuis que vos savantes leçons, plus douces que le miel, filtrèrent dans mon cœur, comme une onde rafraîchissante. J'aspirais instinctivement, dès le berceau, à boire à votre source, plus ancienne que le soleil, et je continue encore de fouler le parvis sacré de votre temple solennel, moi le plus fidèle de vos initiés. Il y avait du vague dans mon esprit, un je ne sais quoi épais comme la fumée ; mais je sus franchir religieusement les degrés qui mènent à votre autel, et vous avez chassé ce voile obscur.
À l'aide de votre lait fortifiant, mon intelligence s'est rapidement développée, et a pris des proportions immenses ; au milieu de cette clarté ravissante dont vous faites présent, avec prodigalité, à ceux qui vous aiment d'un sincère amour. Arithmétique ! algèbre ! géométrie ! trinité grandiose ! triangle lumineux !
Celui qui ne vous a pas connues est un insensé ! »
Dans le texte précédent, extrait des Chants de Maldoror de Lautréamont et comprenant 740 lettres, la fréquence de la lettre « c » est :
Cochez la bonne réponse.
\frac{1}{26} \approx 3,8\,\%
\approx 0,31\,\%
\approx 3,1\,\%
Il faut compter le nombre de fois où la lettre « c » apparaît dans le texte. On en compte 23 sur 740 lettres, d'où la fréquence cherchée : \frac{23}{740} \approx 0,031, soit 3,1\,\%.
Cochez la bonne réponse.
En français, la distribution des fréquences des lettres dans un texte est la suivante :
a
b
c
d
e
f
g
h
i
8,11~\%
0,81~\%
3,38~\%
4,28~\%
17,79~\%
1,13~\%
1,19~\%
0,74~\%
7,24~\%
j
k
l
m
n
o
p
q
r
0,18~\%
0,02~\%
5,99~\%
2,29~\%
7,68~\%
5,20~\%
2,92~\%
0,83~\%
6,43~\%
s
t
u
v
w
x
y
z
 
8,87~\%
7,44~\%
5,23~\%
1,28~\%
0,06~\%
0,53~\%
0,26~\%
0,12~\%
100~\%

Dans le mot suivant, on a remplacé les lettres par des symboles (chaque lettre est toujours remplacée par le même symbole) : « \spadesuit \diamondsuit \leftrightarrow \diamondsuit \heartsuit \clubsuit ». Sa signification la plus probable est :
Cochez la bonne réponse.
SALADE
CELERI
BINIOU
La lettre la plus fréquente est – de loin – le « e ». Si l'on ne tient pas compte du contexte, l'hypothèse la plus probable est donc que le symbole \diamondsuit représente un « e ». Le mot le plus probable est donc « CELERI ».
Cochez la bonne réponse.
« Zoé le protozoaire zazou, zozotait. Aussi n'était-ce pas par zèle qu'il commandait. "Parlez, oyez, voyez, vaquez, riez, buvez, mangez, créez, suez !", criait-il à tous les zéphyrs. »
Dans l'échantillon précédent, la fréquence du « z » est de :
Cochez la bonne réponse.
\approx 12~\%
\frac{1}{{26}} \approx 3,8~\%
\approx 0,12~\%
• Il faut compter le nombre de fois où la lettre « z » apparaît dans le texte. On en compte 17 sur 134 lettres, d'où la fréquence cherchée : \frac{{17}}{{134}} \approx 0,1268, soit environ 12~\%.
• Cette fréquence est à comparer avec la fréquence habituelle du « z » dans un texte quelconque qui est dix fois moindre (\approx 0,12~\%) ; on observe ainsi la fluctuation des fréquences suivant l'échantillon. Si, par exemple, on prend comme échantillon l'extrait des Chants de Maldoror (voir question 1), la fréquence du « z » est alors de 0.
Cochez la bonne réponse.
Lors d'un dîner d'affaires, les douze personnes assises autour de la table discutent de leurs goûts littéraires. Après quelques affirmations péremptoires, le ton montant, une d'entre elles décide d'effectuer un sondage et pose à chacun d'eux la question cruciale : « Qui préférez-vous : Bibi Fricotin ou Spirou ? ». Résultat : 9 personnes sur les 12, soit 75 %, préfèrent Bibi Fricotin à Spirou.
À la lecture de ce résultat, que peut-on dire ?
Cochez la bonne réponse.
On peut dire qu'il y a exactement 75 % des individus qui préfèrent Bibi Fricotin à Spirou.
On peut dire qu'il y a environ 75 % des individus qui préfèrent Bibi Fricotin à Spirou.
On ne peut rien dire sur la proportion des individus qui préfèrent Bibi Fricotin à Spirou.
On ne peut rien dire sur la proportion des individus qui préfèrent Bibi Fricotin à Spirou, car l'échantillon choisi est beaucoup trop petit. (D'autre part, on peut s'interroger sur les autres conditions : les personnes ne sont pas vraiment choisies au hasard et il n'y a pas remise…).
Cochez la bonne réponse.
Lu dans L'Écho du Maraîcher Libéré :
« 56 % des jardiniers préfèrent la Belle de Fontenay à toute autre pomme de terre ; sondage effectué sur 100 personnes lors des 34e comices du val de Meuse. ».
Parmi les affirmations suivantes, laquelle est vraie ?
Cochez la bonne réponse.
On peut dire qu'il y a exactement 56 % des jardiniers qui en France préfèrent la Belle de Fontenay à toute autre pomme de terre.
On peut dire qu'il y a entre 55,9 % et 56,1 % des jardiniers qui en France préfèrent la Belle de Fontenay à toute autre pomme de terre.
On ne peut rien dire sur la proportion de jardiniers qui en France préfèrent la Belle de Fontenay à toute autre pomme de terre.
• Si le sondage a été effectué en respectant les conditions (remise, hasard et échantillon assez grand, ce qui est le cas ici puisque n = 100 > 30 et qu'il n'y a pas de raison de douter de la déontologie des journalistes de « L'Écho du Maraîcher Libéré » !), on a :
p_e - \frac{1}{{\sqrt n }} \le p \le p_e + \frac{1}{{\sqrt n }}p_e est la proportion mesurée sur l'échantillon et p la proportion réelle.
• Ici : 56 - \frac{1}{{\sqrt {100} }} \le p \le 56 + \frac{1}{{\sqrt {100} }}, c'est à dire : 55,9 \le p \le 56,1.
On peut donc dire qu'il y a entre 55,9 % et 56,1 % des jardiniers qui, en France, préfèrent la Belle de Fontenay à toute autre pomme de terre.
Cochez la bonne réponse.
On dispose d'un ruban infini composé de cases successives numérotées de -\infty à +\infty :
...
-3
-2
-1
0
1
2
3
4
...

On place une puce sur la case 0. À chaque étape, la puce se déplace aléatoirement d'une case en avant ou d'une case en arrière. Combien de sauts la puce doit-elle effectuer pour arriver à la case n° 3 ?
Pour répondre à cette question, nous essayons de simuler l'expérience. Pour cela, il nous faut :
Cochez la bonne réponse.
utiliser la touche RANDOM de la calculatrice et, pour chaque nombre obtenu, si le premier chiffre après la virgule est 1, alors la puce avance d'une case, sinon elle recule d'une case
utiliser la touche RANDOM de la calculatrice et, pour chaque nombre obtenu, si le premier chiffre après la virgule est pair, alors la puce avance d'une case, sinon elle recule d'une case
dresser une puce
• Le mot aléatoire dans l'énoncé est assez ambigu. Il sous-entend évidemment qu'à chaque case, la puce choisit de manière équitable entre une direction et une autre. Pour simuler l'expérience, il faut alors utiliser la touche RANDOM de la calculatrice et la règle suivante : à chaque fois que l'on tire un nombre, si le premier chiffre après la virgule est pair, alors la puce avance d'une case, sinon elle recule d'une case. La puce a ainsi, à chaque case, une chance sur deux d'avancer ou de reculer.
• Voici, sur un exemple, ce que nous avons obtenu à l'aide de la touche RANDOM d'une calculatrice :
1er chiffre après la virgule
N° de la case
départ
0
4
1
9
0
5
-1
1
-2
1
-3
8
-2
3
-3
6
-2
7
-3
7
-4
4
-3
7
-4
8
-3
0
-2
5
-3
8
-2
2
-1
0
0
2
1
6
2
3
1
8
2
2
3

23 sauts ont été nécessaires pour atteindre la case n° 3.
• Il est évidemment nécessaire de simuler un grand nombre de fois cette expérience pour connaître le nombre moyen de sauts nécessaires pour que la puce atteigne la case n° 3.