Le son, une information à coderCours

Un son peut être enregistré sur un support informatique, où il doit être converti en signal numérique.

Comment peut-on transformer le son en signal numérique ?

I

La numérisation d'un son

A

Signaux analogiques et numériques

Lorsqu'un son (vibration de l'air) est reçu par un capteur, un signal électrique, image de sa variation au cours du temps, est obtenu. Les valeurs du signal analogique sont alors généralement des tensions, exprimées en volts (V).

Pour que ce signal analogique soit stocké et traité par un support informatique, il faut le convertir en signal numérique.

Signal analogique

Un signal analogique est un signal continu qui peut prendre une infinité de valeurs.

-

Signal numérique

Un signal numérique est un signal discontinu, composé d'une succession de valeurs discrètes.

-

Les signaux numériques ont des avantages par rapport aux signaux analogiques :

  • ils sont moins sensibles aux interférences et aux parasites, que l'on observe lorsque deux signaux se superposent ;
  • ils peuvent être reproduits et transmis plus facilement que les signaux analogiques.

La conversion d'un signal analogique en signal numérique nécessite deux étapes successives, échantillonnage et la quantification, réalisées par un circuit appelé convertisseur analogique-numérique (ou CAN).

Étapes de la numérisation

Étapes de la numérisation

B

L'échantillonnage

Contrairement à un signal analogique, un signal numérique ne peut contenir qu'un nombre restreint de valeurs. Le rôle de l'échantillonnage est de sélectionner les valeurs qui seront retenues pendant la conversion.

Échantillonnage

L'échantillonnage consiste à prélever successivement des valeurs du signal analogique, appelées échantillons, à intervalles de temps réguliers Te. Te est appelée période d'échantillonnage.

Entre deux périodes d'échantillonnage, le convertisseur analogique-numérique maintient (ou bloque) la valeur du signal analogique, ce qui permet de restreindre le nombre de valeurs qui seront conservées.

Le signal numérique ne variant pas pendant toute la période d'échantillonnage Te, il présente un aspect caractéristique en « marches d'escalier ».

-
C

La quantification

Une fois le son reçu par un capteur, les valeurs du signal analogique sont généralement des tensions, exprimées en volts (V). Les supports informatiques sont capables de traiter seulement des nombres binaires, composés de  « bits » qui peuvent valoir 0 ou 1. 

Le « nombre de bits » d'un convertisseur analogique-numérique désigne le nombre de chiffres « 0 » ou « 1 » qu'il peut utiliser pour les nombres binaires qu'il attribue aux valeurs du signal échantillonné.

Un convertisseur 3 bits attribue des nombres binaires à 3 chiffres, compris entre 000 (0 en décimal) et 111 (7 en décimal), ce qui fait 8 valeurs possibles.

Nombre binaire 000 001 010 011 100 101 110 111
Nombre décimal correspondant 0 1 2 3 4 5 6 7

Un convertisseur 8 bits attribue des nombres binaires à 8 chiffres, compris entre 00000000 (0 en décimal) et 11111111 (255 en décimal), ce qui fait 256 valeurs possibles.

La résolution R correspond à la quantité de nombres binaires que l'on peut obtenir à partir de n bits.
On peut montrer qu'elle est donnée par la relation : R = 2^n .

La résolution d'un convertisseur 3 bits est bien égal à donne 2^3 = 8, qui est aussi le nombre de valeurs possibles.

Les signaux contenus sur les CD audio sont quantifiés à l'aide de 16 bits. Ils sont donc quantifiés sur 65 536 valeurs :  R = 2^n = 2^{16} = 65 536.

Quantification

La quantification consiste à associer à chaque échantillon un nombre binaire composé de n bits correspondant à sa valeur.

-

Le nombre de valeurs possibles dépend du nombre de bits utilisés par le convertisseur. 

Résolution R

La résolution R correspond à la quantité de nombres binaires que l'on peut obtenir à partir de n bits. Elle est donnée par la relation suivante :

R = 2^n

Avec un convertisseur de résolution 3 bits, les nombres binaires sont composés de 3 chiffres 0 ou 1, ce qui donne 2^3 = 8 valeurs possibles :

Nombre binaire

000

001

010

011

100

101

110

111

Nombre décimal correspondant

0

1

2

3

4

5

6

7

Les signaux contenus sur les CD audio sont quantifiés à l'aide de 16 bits. Ils sont donc quantifiés sur 65 536 valeurs : R=2^n = 2^{16} = \text{65 536}.

D

Les critères d'une numérisation fidèle

La fidélité d'une numérisation est le terme utilisé pour discuter de la ressemblance entre le signal analogique initial et le signal numérique obtenu.

La fidélité de la numérisation dépend de :

  • La fréquence d'échantillonnage Fe : plus elle est importante, plus la durée des échantillons est faible et plus le signal numérique se rapproche du signal analogique.
-
  • La résolution R : plus elle est importante, plus la quantification est fine car le nombre de valeurs possibles est plus grand et plus le signal numérique se rapproche du signal analogique.
-

Théorème de Shannon

Pour que la numérisation soit satisfaisante, il faut que la fréquence d'échantillonnage Fe soit au moins le double de la fréquence du son à numériser.

-
  • Si le rapport  \dfrac{F_e}{F_{\text{signal}}} \lt 2 : l'allure et la période du signal numérique ne correspondent pas à celui du signal analogique, des défauts dans le son enregistré seront audibles.
  • Si le rapport \dfrac{F_e}{F_{\text{signal}}} = 2 : la période du signal numérique correspond bien à celui du signal analogique, mais pas son allure, il vaut mieux que le rapport soit plus grand.
  • Si le rapport \dfrac{F_e}{F_{\text{signal}}} \gt 2 : l'allure du signal numérique se rapproche à celui du signal analogique, le son enregistré est de meilleure qualité.

Sur les CD audio, les fichiers sont numérisés avec une fréquence d'échantillonnage de 44,1 kHz. Celle-ci permet une numérisation fidèle car elle est supérieure au double de la fréquence maximale audible F_{\text{max}} = 20\text{ kHz}.

II

La taille et la compression d'un fichier audio

A

La taille d'un fichier audio

Les grandeurs caractéristiques d'une numérisation (fréquence d'échantillonnage, résolution) permettent de déterminer la taille d'un fichier audio.

Traditionnellement, en informatique, les tailles des fichiers sont exprimées en octets. Un octet est un groupe de 8 bits. Les multiples des octets ne correspondent pas à des puissances de 10 mais à des puissances de 2.

Ainsi, pour les conversions :

  • 1 octet = 8 bits
  • 1 kio (kibioctet) = 210 octets
  • 1 Mio (mégabioctet) = 220 octets

Cependant, en informatique, il est courant de désigner par ko (kilooctet) le kibioctet et par Mo (mégaoctet) le mégabioctet.

La taille d'un fichier de 2,00 \times 10^7 bits est :

\dfrac{2,00 \times 10^7 }{8} = 2,50 \times 10^6   octets

Soit :

\dfrac{2,50 \times 10^6 }{8} = 2,38  Mio

Taille d'un fichier audio

La taille d'un fichier audio numérique est donnée par la formule suivante :

\text{Taille (en bits)} =F_{e} \times n \times \Delta t \times N

Avec :

  • F_{e} , la fréquence d'échantillonnage exprimée en hertz ;
  • n, le nombre de bits utilisés pour la quantification ;
  • \Delta t , la durée du fichier audio exprimée en secondes (s) ;
  • N, le nombre de canaux : 1 pour un fichier mono, 2 pour un fichier stéréo, 6 pour un fichier 5.1.

La taille d'un morceau audio stéréo de 3 min 15 s stocké sur un CD audio, numérisé avec une fréquence d'échantillonnage de 44,1 kHz et une résolution de 16 bits est donnée par le calcul suivant :

\text{Taille (en bits)} =F_{e} \times n \times \Delta t \times N

Avec :

  • La fréquence d'échantillonnage :  F_e = 44,1 \text{ kHz} = 44,1 \times 10^3 \text{ Hz}  ;
  • Le nombre de bits :  n = 16 \text{ bits}  ;
  • La durée du morceau :  \Delta t = 3 \text{ min} 15 \text{ s} = (3 \times 60 + 15) \text{ s}  ;
  • Le nombre de canaux :  N = 2

D'où :

\text{Taille (en bits)} = 44,1 \times 10^3 \times 16 \times (3 \times 60 +15) \times 2

\text{Taille (en bits)} = 2,75 \times 10^8  bits

Soit, en mégabioctet (Mio) :

\text{Taille (en Mio)} = \dfrac{2,75 \times 10^8}{2^{20}}

\text{Taille (en Mio)} = 262 \text { Mio}

La formule de la taille d'un fichier audio peut également s'écrire : 

\text{Taille (en bits)} =D \times \Delta t

Avec :

  • D , le débit binaire du fichier audio, qui correspond à D = N\times n\times F_e ;
  • \Delta t , la durée du fichier audio exprimée en secondes (s).
B

La compression d'un fichier audio numérique

Afin de diminuer la taille d'un fichier audio numérique sur un support informatique, on le compresse.

Compression d'un fichier numérique

La compression consiste à diminuer la taille d'un fichier numérique afin de faciliter son stockage et sa transmission.

Le format MP3, très répandu, est un format de compression des fichiers audio.

Taux de compression

Le taux de compression T est le rapport de la taille du fichier après compression sur sa taille avant compression :


T = \dfrac{\text{Taille fichier compressé}}{\text{Taille fichier non compressé}}

Il dépend du format de fichier utilisé (MP3, WMA, AAC, etc.) et de son débit (ou bitrate), généralement exprimé en kbits/s.

Lorsqu'un utilisateur compresse un fichier audio numérique avec le format MP3 à 128kbits/s dont le taux de compression est \dfrac{1}{12}, il divise par 12 la taille du fichier initial.

Les données perdues lors de la compression se traduisent par une  « perte d'informations ».

Les techniques de compression spécifiques au son, dites avec perte d'information, éliminent les informations sonores auxquelles l'oreille est peu sensible.

Le format MP3 à 320 kbits/s, dont le taux de compression est 1/5, génère des fichiers plus lourds que le format MP3 à 128 kbits/s mais qui sont plus fidèles au fichier initial.

Si dans un extrait musical, deux sons de fréquences voisines sont présents mais que l'amplitude de l'un est plus faible que l'autre, il ne sera pas perçu par le système auditif (effet de masquage). Il peut donc être « éliminé » du fichier, ce qui diminue sa taille.