Bidules Audio et autres histoires: juin 2023

Qu'est-ce-que la DYNAMIQUE ??????

Assez souvent j'ai constaté que la plupart des mélomanes et amateurs de Hifi, voir quelques professionnels de l'audio : ont une conception approximative, quand elle n'est pas fausse de la dynamique.

Je vous propose donc d'expliquer tout ça sans trop de maths et avec le moins de technique possible.

Introduction aux mesures de dynamique : les décibels

Les différences de niveaux de signal, ou de son, sont mesurées en décibels (dB). Ainsi, une mesure de 6 dB signifie qu'un signal ou un son est 6 décibels plus fort qu'un autre, ou qu'un signal ou un son a été rendu 6 décibels plus fort qu'il ne l'était auparavant.

Les décibels ne décrivent pas un niveau sonore (ou signal) absolu, mais uniquement une différence ou un changement de niveau.

0 dB signifie donc aucune différence de niveau, ou aucun changement de niveau.

Ainsi, par exemple : dire qu'un orchestre produit 100dB à une distance de 20 mètres n'est pas correct. Ces "100dB" signifient en fait que le son est 100 dB plus fort que le son le plus silencieux que l'oreille humaine moyenne puisse entendre dans la salle de concert.

Le niveau de l'orchestre est de 100 dB "SPL" (pour Sound Pressure Level - niveau de pression acoustique), en considérant 0 dB SPL comme niveau de référence. Par exemple 0dB serait le bruit de respiration produit par l'ensemble des personnes de la salle de concert : on peut l'entendre, mais tout ce qui est plus silencieux est imperceptible.

Pour la majorité des oreilles : +9dB correspondent à un doublement du volume SPL, et pour information, considérant que +3dB requiert 2 fois plus de puissance ampli : on doit multiplier par 8 la puissance "ampli" pour doubler le volume (mais j'en ai déjà parlé dans un autre article).

Ceci dit, sur les Vu-Mètres, et dans les logiciels d'analyse audio on voit souvent les dB notés en négatif, avec un maximum à 0dB. Ce sont des dB "FS".

0 dB "FS" (Full Scale) est le niveau de signal le plus élevé pouvant être atteint dans un fichier audio numérique. Des niveaux plus élevés sont "virtuellement" possibles dans le logiciel audio numérique, mais pour les fichiers enregistrés sur disque : 0 dBFS est le niveau le plus élevé.

Tous les autres niveaux peuvent être mesurés et décrits par rapport à 0 dBFS. Ainsi, par exemple, un signal inférieur de 6 décibels au niveau maximal possible est de -6 dBFS. Un signal à l'intérieur du logiciel audio numérique peut être "virtuellement" à +6 dBFS, mais il sera forcément abaissé pour une sortie sous forme de fichier FLAC, sinon il serait écrêté lors de la reproduction (hard limitting), ce qui signifie que les pointes de la forme d'onde seraient décapitées à 0 dBFS.

Nota Bene : le "hard limiting" c'est ce que font les mauvais techniciens de studio au mastering pour "bourrer" du volume dans un fichier audio.

"Les" dynamiques

Entrons maintenant dans le vif du sujet. Il existe deux significations de la "dynamique audio", une notion liée, et une notion apparentée et souvent confondue mais qui n'a rien à voir : ça fait 4 notions à expliquer.

Les 2 notions de dynamique :

La dynamique "Full Scale"
La plage dynamique

La notion liée :

Le head-room

La notion apparentée :

La dynamique subjective

La dynamique "full scale" ou rapport signal/bruit : SNR

Dans notre illustration la dynamique full scale du morceau est représentée par la flèche ROUGE.

La dynamique "full scale" correspond à la définition principale de la notion de dynamique : c'est la différence en dB entre le niveau de bruit et le plus haut signal de l'enregistrement. Un enregistrement 16 bits, peut théoriquement contenir 92dB de dynamique maximum, et 96dB à 102dB en pratique après traitement numérique (diphering, oversampling).

Sans rentrer trop dans les détails, et sans mathématiques : tout enregistrement numérique contient un bruit dit "bruit de quantisation" qui résulte des approximations de la numérisation du signal (voir illustration ci-dessous). Ce bruit numérique résultant de la marge d'erreur d'échantillonage numérique a une amplitude inférieure à 1bit. Sans rentrer dans les détails : cela induit au maximum 2 puissance 16 niveaux de dynamique au delà du bruit : soit théoriquement 92 dB.

On dispose d'une technique de réduction de ce bruit numérique : le "diphering" est une technique de transcodage numérique, reposant sur l'injection d'un bruit aléatoire et un sur-échantillonnage, qui permet de rendre ce bruit numérique de quantisation totalement inaudible. Et pas juste un peu "moins audible" : en fait le résultat est à des années lumière en dessous de notre limite de perception : tellement négligeable qu'à l'écoute : on peut considérer qu'il n’existe pas !! . La technique de sur-échantillonage permet de surcroît de diviser ce bruit par 2^6 ou plus et d'aboutir à environ 102dB de "capacité dynamique full scale", ou SNR, pour le format 16 bits du CD.

La dynamique "full scale" d'un enregistrement 16 bits "normalisé" dont les crêtes de signal frôlent le 0dBFS : est d'environ 102dB selon les décodeurs. La qualité CD disponible depuis 1984.

Le bruit numérique du CD est à -102dB, le rapport signal/bruit est donc de 102dB. Soit en amplitude de signal : un bruit numérique 0.000000006 fois plus faible, ou encore : SNR = 102dB = 0.0000006%.

A l'écoute on peut considérer le bruit numérique comme absolument inexistant en qualité CD (16 bits) : tout souffle dans la reproduction ne vient pas du support mais de l'enregistrement initial, ou d'un équipement analogique qui s'est glissé comme un gros parasite dans la chaîne de reproduction.

Si les crêtes de signa ne frôlent pas le 0dBFS, ça signifie que le volume de l'enregistrement est plus faible que ce qu'il le pourrait, on dit que l'enregistrement n'est pas "normalisé" : il comporte un "headroom" (flèche VERTE).

Le headroom

Le headroom ne sert à rien !!! hormis baisser le volume d'un morceau par rapport à d'autres morceaux du même album.

Nota bene : en studio, sur des traitement analogiques, avec des équipements qui ne peuvent pas travailler au dessus de 0dBFS, c'est différent : on doit conserver du headroom, c'est l'une des raisons d’utiliser du 24 bits en studio : on a plus de place pour le headroom dans le cas ou un post-traitement serait réalisé en analogique. Sauf différences de volume d'un morceau à l'autre, le headroom doit toujours être supprimé au mastering.

Petite anecdote : un tech de studio qui se faisait appeler "ingénieur", m'a un jour demandé de réduire l’amplitude du signal issu de l’enregistrement pour "garder du headroom de traitement DSP" : c'est inepte ! on n'a pas besoin de headroom en traitement numérique car les plugins DSP peuvent fonctionner au delà de 0dBFS sans absolument aucune distorsion... bref... on voit de tout dans les studios...

Revenons à notre SNR, ou dynamique "Full Scale" : la dynamique Full Scale n'est pas suffisante pour juger de la qualité "dynamique" d'un enregistrement car presque tous les enregistrements "normalisés" ont la même dynamique Full Scale : environ 100dB. Il nous faut donc aborder la notion de "plage dynamique".

La plage dynamique

Le plage dynamique est l'écart en décibels entre les crêtes de signal les plus hautes et les sons enregistrés les plus faibles (contrairement à la dynamique full scale ci-dessus qui prend comme référence le bruit à ~ -100dBFS, et non pas les sons faibles de l'enregistrement).

Pour calculer la plage dynamique on se doit de raisonner de façon statistique car un morceau peut contenir de nombreux passages faibles et de nombreuses pointes de signal.

Ainsi le calcul de la plage dynamique d'un enregistrement correspond à la différence entre la section non silencieuse la plus forte et la section non silencieuse la plus faible, après élimination de 10% des échantillons les plus forts et les plus faibles.

La plage dynamique, représentée par la flèche bleue dans notre illustration, caractérise l'amplitude dynamique d'un morceau.

La compression, utilisée en studio principalement en phase mastering, permet de réduire la plage dynamique pour que les passages faibles s'entendent mieux.

Si on applique de la compression : l'écoute en environnement très bruyant est plus intéressante (voiture par exemple). Par contre on perd beaucoup de dynamique ce qui rend l'enregistrement beaucoup moins subtil en Hifi. Une autre méthode consiste, comme évoqué plus haut, à booster globalement le volume, faisant passer les crêtes de signal au dessus de 0dBFS, et d'appliquer un limiter pour couper ce qui dépasse 0dBFS.

La course au volume, depuis les années 1990's (loudness war) conduit les techniciens de mastering à utiliser à la fois la compression et le limiter : certains enregistrements sont particulièrement catastrophiques à ce niveau (la discographie des Red Hot Chili Peppers, par exemple).

Notons au passage que l'encodage MP3 (ou AAC, VORBIS, etc...) comprime les données (fichiers plus petits) mais ne touche pas du tout à la "dynamique" : la dynamique d'un MP3 est strictement la même que celle du FLAC dont il est issu.

Comment expliquer alors que certains perçoivent une perte de dynamique sur les enregistrements MP3 ?

Il s'agit de la dynamique subjective ! :/

La dynamique subjective

La dynamique subjective est une sensation provoquée par la rapidité des variations de volume de l'enregistrement. Les transitions de niveau sonore peuvent en effet être amorties par différents facteurs : les HP, la rapidité de l'ampli, le pré-écho d'un traitement numérique.

Le MP3 à faible bitrate (128kbps par exemple) génère du pré-écho ce qui affecte les parties transitoires des signaux, ce qui entraîne et une perte de caractère de l'attaque. Les sons percussifs sont donc ressentis comme "amortis". Le MP3 haut bitrate (320) n'a quasiment aucun artefact de ce type, et d'autres formats d'encodage plus récent n'ont pas de pré-écho y compris à faible bitrate (OPUS 64).

Parfois l'enregistrement comporte nativement du pré-écho causé par certains traitements studio et il sera perçu subjectivement comme "ayant une mauvaise dynamique" (alors que sa plage dynamique est correcte).

Aussi, certains amplificateurs ne sont pas assez "rapides" pour reproduire les transitoires, aboutissant à un effet d'amortissement des attaques de notes, principalement sur les percussions, ce qui induit une perception de manque de dynamique comparable.

A fort volume il se peut aussi que la capacité de courant de l'ampli atteigne ses limites se qui provoque un effondrement de la puissance sur les attaques.

On a dit plus haut qu'il faut 8x plus de puissance ampli pour doubler le volume acoustique perçu. Un ampli de 100 Watts est donc juste marginalement plus puissant qu'un ampli de 50 Watts en termes de capacité de volume : le gain est d'environ 1,2x en termes de volume acoustique obtenu.

La capacité de courant est quand à elle beaucoup plus importante que la puissance continue : ainsi un ampli de 30 Watts avec une très grosse alim pourra en pratique être beaucoup plus "pêchu" et "dynamique" avec une capacité de drive plus grande, qu'un ampli de 100 ou 200 Watts doté d'une alim standard... à méditer ;)

samedi 10 juin 2023

Qu'est-ce-que la DYNAMIQUE ?