Analyse de l'information chiffrée

I. Qu'est-ce qu'une série statistique à deux variables ?
Définition : Une série statistique à deux variables est une série statistique étudiant simultanément deux caractères sur un même échantillon de n individus extraits d'une population.
• On présente cette série statistique à deux variables à l'aide d'un tableau statistique de la forme :
Valeurs du premier caractère
x1
x2
x3

xn
Valeurs du second caractère
y1
y2
y3

yn

• Exemple : On a relevé la température à différentes altitudes sur une route de montagne. On obtient les données suivantes :
Altitude (en km)
0,4
0,8
1,2
1,5
1,9
2
Température (en °C)
8,6
6,5
2,8
1,2
−1
−1,9

• Les deux caractères étudiés sont l'altitude en km et la température en °C.
• Remarques : Quand sur une population, on étudie un seul caractère dont les valeurs sont relevées à des instants différents, on forme une série statistique à deux variables où le temps est une des deux variables. Une telle série est dite chronologique.
II. Comment compléter un tableau croisé d'effectifs ?
Définition : Un tableau croisé d'effectifs est un tableau à double entrée qui permet d'étudier la répartition d'une population selon deux caractères. L'un est représenté en ligne et l'autre en colonne.
• Exemple : catégorisation des Lillois.
  • Population : la ville de Lille en 2019.
  • Individus : habitants.
  • Premier caractère étudié : sexe.
  • Second caractère étudié : âge.
Source : https://www.insee.fr/fr/statistiques/2011101?geo=COM-59350

Hommes
Femmes
Total
Strictement moins de 30 ans
58 382
61 775
120 157
Plus de 30 ans
54 835
59 483
114 318
Total
113 217
121 258
234 475

• Il y avait 59 483 Lilloises âgées de plus de 30 ans parmi les 234 475 habitants de Lille en 2019. Cela représente une proportion de \frac{59\,483}{234\,475} soit environ 25,37 % (ou presque un quart des habitants).
Exercice n°1Exercice n°2
III. Comment représenter graphiquement des données de manière pertinente ?
Diagramme en barres
• Le premier caractère sera positionné sur l'axe des abscisses.
• Le second caractère sera positionné sur l'axe des ordonnées.
• On pourra utiliser un tableur pour construire le diagramme (créer le tableau sur une feuille de calcul, sélectionner le tableau, puis chercher le menu INSERTION et le bouton DIAGRAMME ; suivre ensuite les indications concernant les options de présentation du diagramme).
• Exemple : On considère le nombre de médailles françaises récoltées au JO de Pékin de 2022. On entre les données dans une feuille de calcul.
Analyse de l'information chiffrée - illustration 1
• Puis, en sélectionnant les cellules de A1 à D3 et en choisissant le type de diagramme (Diagramme en barres), et en reparamétrant les couleurs, on peut obtenir ceci :
Analyse de l'information chiffrée - illustration 2
• On observe que la France été plus performante dans les épreuves individuelles que dans les épreuves collectives.
Nuage de points
Définition : Dans un repère orthogonal du plan, l'ensemble des points M(xi ; yi) où l'entier i varie de 1 à n est appelé le nuage de points de la série statistique.
• Exemple : D'après le site web https://donnees.banquemondiale.org/, on a les données suivantes concernant quelques pays d'Amérique du Sud.
Pays
Brésil
Argentine
Pérou
Colombie
Bolivie
Venezuela
Chili
Paraguay
Superficie (millions de km2)
8,51
2,78
1,29
1,14
1,1
0,912
0,756
0,407
Nombre d'habitants en 2021 (millions)
214
45,8
33,7
51,5
12
28,2
19,5
6,7

On peut obtenir le nuage de points suivant à l'aide d'un tableur :
Analyse de l'information chiffrée - illustration 3
• On peut supputer une corrélation positive entre la superficie et le nombre d'habitants. En effet les points semblent placés dans une bande qui « monte ». Les deux caractères semblent liés, mais attention : on ne prouve pas de causalité entre eux.Exercice n°3
Diagramme circulaire
Définition : Un diagramme circulaire ne permet de visualiser la répartition que d'un seul caractère dans une population. Les différentes valeurs du caractère seront représentées par des secteurs angulaires (souvent de couleurs différentes) dont la taille est proportionnelle à l'effectif.
• Exemple : Observons la production d'électricité en France le jeudi 15 juin 2023 à 8 h.
Source : https://www.rte-france.com/
Analyse de l'information chiffrée - illustration 4
Type
Fioul
Charbon
Gaz
Hydraulique
Nucléaire
Solaire
Éolien
Bioénergies
Total
Puissance (MW)
136
17
3 257
10 145
30 703
2 182
1 964
668
49 072
Mesure d'angle (degré)
1
0,12
23,9
74,42
225,24
16,01
14,41
4,9
360

• L'angle plein mesure 360°. On calcule la somme des puissances produites : on trouve une production de 49 072 MW. Enfin, pour remplir la dernière ligne du tableau, on va utiliser la proportionnalité.
• Ainsi pour déterminer, par exemple, la mesure d'angle du secteur angulaire représentant la puissance produite par les bioénergies on calcule :
\frac{668\: \times \: 360}{49\,072}
On trouve environ 4,9 degrés.
• Une fois le tableau complété on construit un cercle. On trace un premier rayon (souvent horizontal) de ce cercle. On construit le premier secteur angulaire en utilisant un rapporteur. Puis on construit les suivants à la suite. On obtient alors le diagramme circulaire suivant :
Analyse de l'information chiffrée - illustration 5
• La domination de la filière nucléaire dans la production d'électricité française apparaît clairement.Exercice n°4
• Remarque : Pour comparer deux séries de données, il faut donc deux diagrammes circulaires.
Exemple : Source : https://www.statistiques.developpement-durable.gouv.f
Analyse de l'information chiffrée - illustration 6
• On observe que la proportion d'énergie fabriquée à partir du pétrole a diminué dans le monde entre 1971 et 2019 (diminution de 13 points de pourcentage).
IV. Comment manipuler des données avec un tableur ?
Tri
• On peut trier les données : on va modifier l'ordre des objets.
Il suffit de sélectionner « Données » puis « Trier… » et de choisir un descripteur. On peut choisir un tri dans l'ordre croissant ou décroissant. On peut même choisir d'autres descripteurs pour effectuer un tri dans un tri ! Pour un tri simple, on peut aussi directement sélectionner la colonne voulue et choisir le bouton « A->Z » pour effectuer un tri dans l'ordre croissant.
Filtre
• On peut aussi filtrer les données, c'est-à-dire afficher les objets qui contiennent une valeur particulière. Il suffit de sélectionner « Données » puis « Filtre ».
• On peut alors choisir AutoFiltre qui va mettre en place automatiquement autant de filtres que de valeurs différentes par descripteurs.
• On peut choisir Filtre standard afin de sélectionner soi-même un descripteur particulier et de n'afficher que certaines valeurs (conditions à choisir).
• Enfin, on peut mettre en place des filtres sur toutes les colonnes ou uniquement sur certaines.
• Les outils Tri et Filtre sont particulièrement utiles lorsqu'une collection de données contient des centaines ou des milliers de lignes.
ET
• La fonction logique ET renvoie VRAI si tous les tests sont vrais, sinon elle renvoie FAUX.
• On écrit :
=ET(test1 ;test2 ;…)
OU
• La fonction logique OU renvoie VRAI si au moins un des tests est vrai, sinon elle renvoie FAUX (cela signifie que tous les tests sont faux).
• On écrit :
=OU(test1 ;test2 ;…)
• Exemple : On considère la feuille de calcul suivante qui indique le montant des ventes réalisées par les différents salariés d'une entreprise durant les quatre trimestres de l'année 2022. Le directeur souhaite attribuer une prime pour encourager ses employés.
  • Idée 1 : une prime est accordée si les montants trimestriels sont tous supérieurs à 700 €.
  • Idée 2 : une prime est accordée si au moins un montant trimestriel est supérieur à 1 000 €.
Analyse de l'information chiffrée - illustration 7
• Pour déterminer les salariés ayant droit à la prime si l'idée 1 est retenue, alors il faudrait entrer la formule suivante dans la cellule G2 :
=ET(B2>700 ; C2>700 ; D2>700 ; E2>700)
• On utilisera ensuite la poignée de recopie en l'étirant vers le bas jusqu'à la cellule G7.
• Pour déterminer les salariés ayant droit à la prime si l'idée 2 est retenue, alors il faudrait entrer la formule suivante dans la cellule G2 :
=OU(B2>1000 ; C2>1000 ; D2>1000 ; E2>1000)
• On utilisera ensuite la poignée de recopie en l'étirant vers le bas jusqu'à la cellule G7.Exercice n°5
NON
• La fonction logique NON renvoie FAUX si le test est vrai, sinon elle renvoie VRAI.
• On écrit :
=NON(test)
• Remarque : Cette fonction n'est pas très utile lorsque le test est simple. En effet, écrire =NON(A1>50) est plus long que d'écrire simplement =A1<=50.
Exercice n°1
Explorer le lien suivant :
https://www.insee.fr/fr/statistiques/2011101?geo=FRANCE-1#tableau-POP_G2
Construire un tableau croisé d'effectifs concernant la population française en 2019 en étudiant le sexe et l'âge (strictement moins de 20 ans, entre 20 et 64 ans inclus et plus de 65 ans).
Quel est le nombre total de Français ayant strictement moins de 20 ans ?
Cochez la bonne réponse.
37 556 817
16 122 638
13 308 948
66 988 403
À l'aide du tableau « POP T3 – Population par sexe et âge en 2019 » :
Analyse de l'information chiffrée - illustration 8

Hommes
Femmes
Total
Strictement moins de 20 ans
8 248 370
7 874 268
16 122 638
Entre 20 ans et 64 ans (inclus)
18 435 872
19 120 945
37 556 817
Plus de 65 ans
5 712 200
7 596 748
13 308 948
Total
32 396 441
34 591 962
66 988 403

Les valeurs situées dans la dernière colonne sont calculées comme somme des valeurs situées sur la même ligne.
Exercice n°2
Le logiciel ScamAI permet de filtrer les courriels reçus sur une messagerie électronique.
On a testé le logiciel sur les 1 000 derniers courriels reçus par Emmanuel. On a observé que :
  • 700 courriels reçus sont des spams.
  • 95 % des spams sont éliminés.
  • 2 % des courriels bienvenus sont éliminés.
Construire un tableau croisé d'effectifs représentant la situation.
Combien de courriels bienvenus sont conservés ?
Cochez la bonne réponse.
6
294
300
329
Courriels
Spams
Bienvenus
Total
Éliminés
665
6
671
Conservés
35
294
329
Total
700
300
1000

Pour calculer le nombre de courriels bienvenus, on a calculé : 1000 − 700.
Pour calculer le nombre de spams éliminés, on a calculé : 700 \times \: \frac{95}{100}
Pour calculer le nombre de courriels bienvenus éliminés, on a calculé : 300 \times \: \frac{2}{100}
Par différence, on a complété les cases restantes.
Exercice n°3
Télécharger le fichier suivant :
https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2023-06/bilan_env_2022_fiche_8_pollution_air.xlsx

NO2 est le dioxyde d'azote et PM10 représente les particules fines dont la taille est inférieure à 10 micromètres.
Construire le nuage de points de la série statistique reliant la concentration moyenne annuelle en dioxyde d'azote et en PM10 à proximité du trafic routier en milieu urbain en France entre 2007 et 2021.
Observe-t-on une corrélation entre les deux variables ?
Cochez la bonne réponse.
oui
non
En sélectionnant uniquement les données nécessaires, on obtient le tableau suivant :
Analyse de l'information chiffrée - illustration 9
Le nuage de points obtenu est le suivant :
Analyse de l'information chiffrée - illustration 10
Corrélation positive.
Exercice n°4
Télécharger le fichier suivant :
https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2023-06/bilan_figures_immat_2022.xlsx

On souhaite construire un diagramme circulaire pour représenter le nombre d'immatriculations de voitures neuves en France en 2022 selon le mois de l'année.
Quelle est la mesure d'angle du secteur angulaire qui représentera le mois de janvier ?
Cochez la bonne réponse.
A. Environ 20 degrés
B. Environ 24 degrés
C. Environ 30 degrés
D. Environ 24 degrés
Le nombre total de voitures neuves immatriculées en France en 2022 est égal à 1 576 950.
On doit donc calculer 106\,609 \times \frac{360}{1\,576\,950}. On trouve environ 24 degrés.
Exercice n°5
Le jury doit délibérer après le passage des examens du premier semestre pour dix étudiants.
Le doyen de la faculté a fixé la règle suivante :
« Pour valider son semestre, l'étudiant doit obtenir une moyenne semestrielle supérieure ou égale à 10 tout en ayant obtenu au moins 9 dans l'intégralité de ses modules ».
Quelle formule doit-on entrer dans la cellule H2 (avant d'utiliser la poignée de recopie) pour pouvoir déterminer les étudiants ayant validé leur premier semestre ?
Analyse de l'information chiffrée - illustration 11
Cochez la bonne réponse.
A. =ET(B2>=9;C2>=9;D2>=9;E2>=9;F2>=9;G2>=10)
B. =OU(B2>=9;C2>=9;D2>=9;E2>=9;F2>=9;G2>=10)
C. =ET(B2:G2>=10)
D. =OU(B2:G2>=10)
Il faut entrer la formule :
=ET(B2>=9;C2>=9;D2>=9;E2>=9;F2>=9;G2>=10)