La compression des sons

Normalement, la qualité de représentation d'un signal numérique dépend de la taille de mot utilisée. Cependant, on peut réduire le nombre de bits pour une qualité donnée. Lorsque l'on utilise un nombre de bits réduit, les données utilisent moins d'espace et nécessitent alors moins de bande passante pour être transmises.

I. Qu'est-ce que la compression ?

• La compression de données informatiques consiste à réduire la taille de l'information pour son stockage et son transport.

• Par exemple, la compression s'avère indispensable si on désire mémoriser une grande quantité de morceaux ou si on accède à un morceau mémorisé sur un ordinateur en utilisant un emplacement à distance. Dans le premier cas, plus nombreuses sont les données que l'on doit mémoriser, plus grand sera le support utilisé, ce qui est plus cher. Dans le deuxième cas, le transfert d'un morceau demande beaucoup de temps, sans compter l'impact sur les ressources du réseau lui-même. C'est pour ces raisons que l'on a souvent recours à une compression des données qui composent le signal sonore numérique.

• La compression permet de faire circuler plus d'informations pour une durée donnée : le débit est donc plus grand.

• Il existe pour cela deux types de compression suivant leur usage :

la compression sans perte : les données informatiques qui doivent rester identiques à leur original (textes, programmes informatiques…) ;
la compression avec perte : les données dont la qualité se limite aux perceptions humaines (images, vidéo, sons…).

• Il y a plusieurs algorithmes de compression. Ils sont choisis en fonction de :

leur taux de compression ;
la qualité de compression (sans/avec perte et en fonction du pourcentage de pertes) ;
la vitesse de compression et de décompression.

Exercice n°1

II. La compression sans perte

• Le codage sans perte permet de retrouver, après décodage, les échantillons audio originaux. Ce type de compression est non destructif.

• Qu'est-ce que le codage d'Huffman ? Cette technique basée sur de l'algorithmie, intervient après la compression. Tous les algorithmes de compression (la compression de fichiers texte, la compression d'images, la compression de sons) utilisent cet algorithme. Cette méthode repose sur l'utilisation d'un code de longueur variable. Plus une fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour la représenter). Le fichier est lu une première fois. On dresse ensuite un tableau des fréquences, qui indique le nombre de fois où elles apparaissent. On peut alors en déduire le code approprié. Ce codage est utilisé en dernier lieu, c'est la phase finale de la compression.

• L'algorithme d'Huffman est très efficace, car le son digitalisé contient de nombreux sons redondants. Ce type d'encodage permet de gagner en moyenne un peu moins de 20 % d'espace. C'est un codage non destructeur.
Exercice n°2

III. La compression avec pertes

La compression audio-numérique utilise plusieurs techniques de façon à n'encoder que les informations utiles. L'une de ces techniques est le masquage. Cette compression est destructrice.

Qu'est-ce que le masquage ?

On part du principe que l'oreille humaine perçoit un son seulement à partir d'un certain seuil.

Courbe représentant le seuil de sensibilité en fonction de la fréquence

• Par exemple, nous percevons plus facilement un son faible à 4 kHz qu'à 50 Hz ou à 15 kHz. De plus au-dessus d'une fréquence de 25 kHz, l'oreille ne perçoit plus aucun son. De même, un bruit de voiture nous empêche d'entendre le gazouillis des oiseaux.

• En effet, un son intense empêche la perception de sons de faible intensité : c'est le phénomène de masquage qui se manifeste :

soit dans une plage de fréquence autour du son intense, c'est le masquage fréquentiel ;
soit pendant la durée du son intense (et même un peu plus), c'est le masquage temporel.

Qu'est-ce que le masquage fréquentiel ?

Un son d'intensité élevé masque tous les sons proches en fréquence de ce son.

Schéma du phénomène de masquage

Qu'est-ce que le masquage temporel ?

• Lorsque l'on entend un son très intense, il faut un certain délai d'environ 100 ms à l'oreille pour entendre à nouveau des sons plus faibles. Le système auditif présente une certaine lenteur qui fait que seuls les sons ayant une certaine durée sont audibles. Ils peuvent donc être masqués par un signal ultérieur.

Qu'est-ce que le Joint Stereo ?

• Notre oreille est incapable, dans les basses fréquences, de localiser l'origine des sons. Par exemple, le format MP3 prévoit d'exploiter cette faiblesse en recodant certains passages en monophonie et en leur associant des informations qui permettent de reconstituer une stéréo simplifiée lors du décodage. En fait, certaines fréquences sont enregistrées en mono, mais elles sont accompagnées d'informations complémentaires afin de restituer un minimum d'effet spatial.

• L'encodage au format Joint Stereo peut créer des problèmes dans certains cas rares. Par exemple, prenons une musique comprenant des sons qui ont été délibérément déphasés, ce qui signifie que l'un des canaux stéréo a été biaisé par rapport à l'autre pour produire un effet spécial appelé phase. Lors de l'encodage au format Joint Stereo, comme des sections de piste stéréo seront en mono, certaines parties des fréquences pourront s'annuler, ce qui entraînera une distorsion.

Comment calculer le taux de compression ?

• Le taux de compression correspond au rapport de la taille du fichier compressé sur la taille du fichier initial.

• Il faut garder à l'esprit que le choix d'un très haut taux de compression entraîne inévitablement une perte de qualité du signal original, en particulier avec la diminution de la bande passante du signal restitué. Il faut faire un compromis taille du fichier/qualité audio.

• Ainsi, une minute d'un CD audio (à une fréquence de 44.1 kHz, 16 bits, stéréo) ne prendra qu'un seul Mo. Une chanson fait donc en moyenne 4 Mo. Une chanson non compressée fait 50 Mo environ. Le taux de compression est donc $\frac{4}{50} = \frac{2}{25} \approx \frac{1}{12}.$

Qu'est-ce que le bitrate ou débit ?

• Le bitrate ou débit est le nombre de bits qui passe en 1 seconde. On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible), plus le débit à choisir devra être faible.

• Précisons qu'un signal compressé avec un débit de 64 kbps (ou kbits/s) a une bande passante de 11 kHz (toutes les fréquences situées entre 11 et 20 kHz sont supprimées !).

• Pour obtenir un tel taux de compression, outre la suppression des fréquences, on a également transformé les hautes fréquences en signal mono au lieu de conserver leur caractère stéréo. Le son MP3 des fichiers compressés avec un débit de 64 kbps n'a plus rien à voir avec l'original. Un bon compromis consiste à utiliser un débit de 128 kbps.

Qu'est-ce que le format MP3 ?

• Le MP3 (« MPEG-1 Audio layer 3 ») est un format de compression de données audio par destruction de données, développé par l'organisation de standardisation internationale (ISO-International Standard Organisation). Ce format permet de compresser à un taux de 1:12 les formats audio habituels.

• Il permet de faire tenir l'équivalent en fichiers de douze albums de musique sur un seul CD-ROM. De plus, le format MP3 n'altère que faiblement le son pour l'oreille humaine.

Bande passante	Mode	Débit	Qualité	Compression
11 025 Hz	Mono	8 kbps	Très mauvaise	1 : 200
22 050 Hz	Stéréo	64 kbps	Mauvaise	1 : 25
44 100 Hz	Stéréo	96 kbps	Acceptable	1 : 16
44 100 Hz	Stéréo	128 kbps	Bonne	1 : 12
44 100 Hz	Stéréo	196 kbps	Très bonne	1 : 12

Exercice n°3 Exercice n°4 Exercice n°5

À retenir :

Compresser un fichier c'est réduire sa taille, ce qui est utile pour le stockage et le transport du fichier.
Il existe deux types de compression : la compression sans perte et la compression avec perte.
Le choix du type de compression doit tenir compte du fichier à comprimer : un fichier texte sera comprimé sans perte alors qu'une image pourra être comprimée avec perte. Il faut également tenir compte du taux de compression qui influencera la qualité et la vitesse de compression et de décompression.
Quel que soit le type de compression, on utilisera le codage d'Huffman qui est non destructif et permet de gagner 20 % d'espace.
La compression avec perte utilise plusieurs techniques : le masquage, le Joint Stereo…
Le masquage peut être fréquentiel ou temporel. Un son très intense masque les sons moins intenses de fréquence proche et les sons proches en temps.
Le Joint Stereo est le fait que certains bouts de piste en stéréo sont recodés en mono avec des informations complémentaires pour restituer le son avec un effet spatial.
Le taux de compression est égal au rapport de la taille du fichier compressé sur la taille du fichier initial.
Le bitrate ou débit est le nombre de bits par seconde. Il faut faire un compromis entre un débit élevé qui implique une taille conséquente de fichier et un débit bas, qui a pour conséquence une qualité sonore amoindrie.
Le MP3 est un format de compression de données audio par destruction de données.

Un article à lire

→ Le mp3 tire sa révérence après 2 ans de révolution de la musique
Un article complet pour faire le lien entre l'aspect scientifique et mathématique de la digitalisation et la compression du son et l'utilisation qui en a été faite pendant 30 ans dans l'industrie musicale.

Un livre à lire

À l'assaut de l'empire du disque de Stephen Witt, Castor Music (2016)

La compression des sons - illustration 3

Ce premier livre très documenté de Stephen Witt nous fait découvrir l'histoire secrète du piratage de la musique numérique, en partant des ingénieurs allemands qui ont inventé le format mp3 pour arriver au site de fabrication des CD en Caroline du Nord, où l'employé Dell Glover a fait fuiter presque deux mille albums en l'espace de dix ans.