Bidules Audio et autres histoires

vendredi 12 juin 2020

Distribution en 24/192 ... et pourquoi cela n'a aucun sens (Xiph.org - 1er mars 2012)

Ci-dessous une traduction (par Monsieur Google Translator) de l'article publié sur Xiph.org en mars 2012, dont l'original est disponible à : http://people.xiph.org/~xiphmont/demo/neil-young.html

Des articles le mois dernier ont révélé que le musicien Neil Young et Steve Jobs d'Apple ont discuté de la possibilité de télécharger de la musique numérique d'une «qualité studio sans compromis». Une grande partie de la presse et des commentaires des utilisateurs étaient particulièrement enthousiastes à l'idée de téléchargements 24 bits 192 kHz non compressés. 24/192 a figuré en bonne place dans mes propres conversations avec le groupe de M. Young il y a plusieurs mois.

Malheureusement, il est inutile de distribuer de la musique au format 24 bits / 192 kHz. Sa fidélité de lecture est légèrement inférieure à 16 / 44,1 ou 16/48, et il occupe 6 fois l'espace.

Il y a quelques problèmes réels avec la qualité audio et «l'expérience» de la musique distribuée numériquement aujourd'hui. 24/192 ne résout aucun d'entre eux. Alors que tout le monde se fixe le 24/192 comme une balle magique, nous n'allons pas voir d'amélioration réelle.

Tout d'abord, les mauvaises nouvelles

Au cours des dernières semaines, j'ai eu des conversations avec des personnes intelligentes et à l'esprit scientifique qui croient aux téléchargements 24/192 et veulent savoir comment quiconque pourrait éventuellement être en désaccord. Ils ont posé de bonnes questions qui méritent des réponses détaillées.

J'étais également intéressé par ce qui a motivé le plaidoyer audio numérique à haut débit. Les réponses indiquent que peu de gens comprennent la théorie de base du signal ou le théorème d'échantillonnage , ce qui n'est guère surprenant. Des malentendus sur les mathématiques, la technologie et la physiologie ont surgi dans la plupart des conversations, souvent affirmées par des professionnels qui possédaient autrement une expertise audio importante. Certains ont même soutenu que le théorème d'échantillonnage n'explique pas vraiment comment fonctionne l'audio numérique [ 1 ].

La désinformation et la superstition ne servent que les charlatans. Alors, couvrons certaines des bases de pourquoi la distribution en 24/192 n'a aucun sens avant de suggérer des améliorations qui en ont réellement.

Messieurs, rencontrez vos oreilles

L'oreille entend via les cellules ciliées qui reposent sur la membrane basilaire résonnante de la cochlée. Chaque cellule ciliée est effectivement réglée sur une bande de fréquence étroite déterminée par sa position sur la membrane. La sensibilité culmine au milieu de la bande et tombe de chaque côté en forme de cône déséquilibré chevauchant les bandes d'autres cellules ciliées à proximité. Un son est inaudible s'il n'y a pas de cellules ciliées réglées pour l'entendre.

En haut à gauche: dessin anatomique en coupe d'une cochlée humaine avec la membrane basilaire colorée en beige. La membrane est réglée pour résonner à différentes fréquences sur toute sa longueur, avec des fréquences plus élevées près de la base et des fréquences plus basses à l'apex. Les emplacements approximatifs de plusieurs fréquences sont indiqués.

En haut à droite: diagramme schématique représentant la réponse des cellules ciliées le long de la membrane basilaire sous la forme d'une banque de filtres qui se chevauchent.

Ceci est similaire à une radio analogique qui capte la fréquence d'une station puissante adjacente à celle à laquelle le tuner est réellement réglé. Plus la fréquence de la station est éloignée, plus elle est faible et déformée jusqu'à ce qu'elle disparaisse complètement, quelle que soit sa force. Il existe une limite de fréquence audible supérieure (et inférieure), au-delà de laquelle la sensibilité des dernières cellules ciliées tombe à zéro et l'audition se termine.

Taux d'échantillonnage et spectre audible

Je suis sûr que vous avez entendu cela de très nombreuses fois: la plage d'audition humaine s'étend de 20 Hz à 20 kHz. Il est important de savoir comment les chercheurs parviennent à ces chiffres spécifiques.

Premièrement, nous mesurons le «seuil absolu d'audition» sur toute la plage audio pour un groupe d'auditeurs. Cela nous donne une courbe représentant le son le plus silencieux que l'oreille humaine puisse percevoir pour une fréquence donnée mesurée dans des circonstances idéales sur des oreilles saines. Un environnement anéchoïque, un équipement de lecture calibré avec précision et une analyse statistique rigoureuse sont la partie la plus facile. Les oreilles et la concentration auditive se fatiguent toutes les deux rapidement, donc les tests doivent être effectués lorsqu'un auditeur est "frais". Cela signifie beaucoup de d’interruptions et de pauses. Les tests prennent de plusieurs heures à plusieurs jours selon la méthodologie.

Ensuite, nous collectons des données pour l'extrême opposé, le «seuil de douleur». C'est le point où l'amplitude audio est si élevée que le matériel physique et neuronal de l'oreille est non seulement complètement submergé par l'entrée, mais éprouve une douleur physique. La collecte de ces données est plus délicate. Vous ne voulez pas endommager définitivement l'audition de qui que ce soit au cours du processus.

Ci-dessus: courbes approximatives de volume égal dérivées de Fletcher et Munson (1933) plus des sources modernes pour des fréquences> 16 kHz. Les courbes de seuil absolu d'audition et de seuil de douleur sont marquées en rouge. Des chercheurs ultérieurs ont affiné ces lectures, aboutissant à l'échelle Phon et aux courbes d'égalité d'intensité standard ISO 226. Les données modernes indiquent que l'oreille est nettement moins sensible aux basses fréquences que les résultats de Fletcher et Munson.

La limite supérieure de la plage audio humaine est définie comme étant l'endroit où le seuil absolu de la courbe auditive franchit le seuil de la douleur. Pour percevoir même faiblement l'audio à ce point (ou au-delà), il doit simultanément être insupportablement fort.

Aux basses fréquences, la cochlée fonctionne comme une enceinte bass-reflex. L' hélicotrème est une ouverture au sommet de la membrane basilaire qui agit comme un port réglé entre 40 Hz et 65 Hz selon les individus. La réponse diminue fortement en dessous de cette fréquence.

Ainsi, 20 Hz - 20 kHz est une plage généreuse. Il couvre à fond le spectre audible, une affirmation soutenue par près d'un siècle de données expérimentales.

Cadeaux génétiques et oreilles d'or

Sur la base de mes correspondances, de nombreuses personnes croient en des individus dotés de dons auditifs extraordinaires. Ces "oreilles d'or" existent-elles vraiment?

Cela dépend de ce que vous appelez une oreille d'or.

Les oreilles jeunes et saines entendent mieux que les oreilles vieilles ou endommagées. Certaines personnes sont exceptionnellement bien entraînées pour entendre les nuances sonores et musicales que la plupart des gens ignorent même exister. Il fut un temps dans les années 1990 où je pouvais identifier chaque codec MP3 majeur par son (à l'époque où ils étaient tous assez mauvais), et je pouvais le démontrer de manière fiable dans des tests en double aveugle [ 2 ].

Lorsque des oreilles saines se combinent avec de hautes capacités de discrimination, j'appellerais cette personne une oreille d'or. Même ainsi, une audition inférieure à la moyenne peut également être formée pour remarquer les détails qui échappent aux auditeurs non formés. Les oreilles d'or sont plus une question d'entraînement que d'entendre au-delà des capacités physiques des mortels moyens.

Les chercheurs dans le domaine de l'audition aimeraient trouver, tester et documenter des personnes ayant une audition vraiment exceptionnelle, comme une gamme d'audition considérablement étendue. Les gens normaux sont gentils et tout, mais tout le monde veut trouver un phénomène génétique pour un papier vraiment juteux. Nous n'avons pas trouvé de telles personnes au cours des 100 dernières années de tests, donc elles n'existent probablement pas. Désolé. Nous continuerons à chercher.

Spectrophiles

Vous êtes peut-être sceptique à propos de tout ce que je viens d'écrire; cela va certainement à l'encontre de la plupart des supports marketing. Au lieu de cela, considérons un engouement hypothétique pour la vidéo à large spectre qui ne transporte pas de bagages audiophiles préexistants.

Ci-dessus: La réponse approximative à l'échelle logarithmique des bâtonnets et des cônes de l'œil humain, superposée au spectre visible. Ces organes sensoriels répondent à la lumière dans des bandes spectrales qui se chevauchent, tout comme les cellules ciliées de l'oreille sont réglées pour répondre à des bandes de fréquences sonores qui se chevauchent.

L'œil humain voit une gamme limitée de fréquences de lumière, alias le spectre visible. Ceci est directement analogue au spectre audible des ondes sonores. Comme l'oreille, l'œil possède des cellules sensorielles (bâtonnets et cônes) qui détectent la lumière dans des bandes de fréquences différentes mais qui se chevauchent.

Le spectre visible s'étend d'environ 400THz (rouge foncé) à 850THz (violet foncé) [ 3 ]. La perception tombe fortement sur les bords. Au-delà de ces limites approximatives, la puissance lumineuse nécessaire à la moindre perception peut faire frire vos rétines. Ainsi, il s'agit d'une durée généreuse, même pour les personnes jeunes, saines et génétiquement douées, analogue aux limites généreuses du spectre audible.

Dans notre engouement hypothétique pour la vidéo à large spectre, considérons un groupe fervent de spectrophiles qui croient que ces limites ne sont pas assez généreuses. Ils proposent que la vidéo représente non seulement le spectre visible, mais aussi l'infrarouge et l'ultraviolet. Poursuivant la comparaison, il y a une faction encore plus hardcore [et fière d'elle!] Qui insiste sur le fait que cette gamme étendue est encore insuffisante, et que la vidéo semble tellement plus naturelle lorsqu'elle comprend également les micro-ondes et une partie du spectre des rayons X. Pour un œil d'or, insistent-ils, la différence est le jour et la nuit!

Bien sûr, c'est ridicule.

Personne ne peut voir les rayons X (ou infrarouges, ultraviolets ou micro-ondes). Peu importe combien une personne croit pouvoir le faire. Les rétines n'ont tout simplement pas le matériel sensoriel.

Voici une expérience que tout le monde peut faire: allez chercher votre télécommande infrarouge Apple. La LED émet à 980 nm, soit environ 306 THz, dans le spectre proche infrarouge. Ce n'est pas loin en dehors de la plage visible. Emmenez la télécommande au sous-sol, ou dans la pièce la plus sombre de votre maison, au milieu de la nuit, les lumières éteintes. Laissez vos yeux s'adapter à la noirceur.

Ci-dessus: télécommande infrarouge Apple photographiée à l'aide d'un appareil photo numérique. Bien que l'émetteur soit assez brillant et que la fréquence émise ne soit pas loin de la partie rouge du spectre visible, il est complètement invisible à l'œil.

Pouvez-vous voir le flash LED de la télécommande Apple Remote lorsque vous appuyez sur un bouton [ 4 ]? Non? Pas même le moindre montant? Essayez quelques autres télécommandes IR; beaucoup utilisent une longueur d'onde IR un peu plus proche de la bande visible, autour de 310-350THz. Vous ne pourrez pas non plus les voir. Le reste émet juste au bord de la visibilité de 350-380 THz et peut être à peine visible dans une noirceur complète avec des yeux ajustés à l'obscurité [ 5 ]. Tous seraient aveuglément, douloureusement brillants s'ils étaient bien à l'intérieur du spectre visible.

Ces LED proche IR émettent de la limite visible jusqu'à 20% au plus au-delà de la limite de fréquence visible. L'audio 192 kHz s'étend jusqu'à 400% de la limite audible. De peur d'être accusé de comparer des pommes et des oranges, la perception auditive et visuelle chutent de la même manière vers les bords.

192 kHz considéré comme dangereux

Les fichiers musicaux numériques à 192 kHz n'offrent aucun avantage. Ils ne sont pas tout à fait neutres non plus; la fidélité pratique est légèrement moins bonne que celle du CD. Les ultrasons sont un handicap lors de la lecture.

Ni les transducteurs audio ni les amplificateurs de puissance ne sont exempts de distorsion, et la distorsion a tendance à augmenter rapidement aux fréquences les plus basses et les plus hautes. Si le même transducteur reproduit les ultrasons avec le contenu audible, toute non-linéarité déplacera une partie du contenu ultrasonore dans la gamme audible sous forme de distorsion d'intermodulation couvrant tout le spectre audible. La non-linéarité dans un amplificateur de puissance produira le même effet. L'effet est très faible, mais des tests d'écoute ont confirmé que les deux effets peuvent être audibles.

Ci-dessus: Illustration des produits de distorsion résultant de l'intermodulation d'une tonalité de 30 kHz et 33 kHz dans un amplificateur théorique avec une distorsion harmonique totale (THD) non variable d'environ 0,09%. Des produits de distorsion apparaissent dans tout le spectre, y compris à des fréquences inférieures à l'une ou l'autre tonalité.

Les ultrasons inaudibles contribuent à la distorsion d'intermodulation dans la gamme audible (zone bleu clair). Les systèmes non conçus pour reproduire les ultrasons ont généralement des niveaux de distorsion bien plus élevés au-dessus de 20 kHz, ce qui contribue encore à l'intermodulation. L'élargissement de la plage de fréquences d'une conception pour tenir compte des ultrasons nécessite des compromis qui réduisent les performances de bruit et de distorsion dans le spectre audible. Dans tous les cas, la reproduction inutile du contenu ultrasonore diminue les performances.

Il existe plusieurs façons d'éviter la distorsion supplémentaire:

Un haut-parleur, un amplificateur et un étage de transition dédiés aux ultrasons pour séparer et reproduire indépendamment les ultrasons que vous n'entendez pas, juste pour qu'ils ne gâchent pas les sons que vous pouvez entendre.
Des amplificateurs et transducteurs conçus pour une reproduction de fréquences plus larges, afin que les ultrasons ne provoquent pas d'intermodulation audible À coûts et complexité égaux, la reproduction de cette gamme de fréquences supplémentaire se fera au prix d'une certaine réduction des performances dans la partie audible du spectre.
Des haut-parleurs et amplificateurs soigneusement conçus pour ne pas reproduire les ultrasons de toute façon.
Ne pas encoder une gamme de fréquences aussi large pour commencer. Vous ne pouvez et n'aurez pas de distorsion d'intermodulation ultrasonique dans la bande audible s'il n'y a pas de contenu ultrasonique.

Seule la solution 4) est logique.

Si vous êtes curieux de connaître les performances de votre propre système, les exemples suivants contiennent une tonalité de 30 kHz et 33 kHz dans un fichier WAV 24/96, une version plus longue dans un fichier FLAC, quelques gazouillis tricolores et un clip de morceau normal décalé jusqu'à 24 kHz afin qu'il soit entièrement dans la plage ultrasonique de 24 kHz à 46 kHz:

Tests intermod:
- Tonalité 30 kHz + tonalité 33 kHz (24 bits / 96 kHz) [WAV 5 secondes] [FLAC 30 secondes]
- 26kHz - 48kHz tonalités de warbling (24 bits / 96kHz) [10 secondes WAV]
- 26kHz - 96kHz sons de warbling (24 bits / 192kHz) [10 secondes WAV]
- Clip de chanson décalé de 24 kHz (WAV 24 bits / 96 kHz) [ WAV 10 secondes]
  (version originale du clip ci-dessus) (WAV 16 bits / 44,1 kHz)

En supposant que votre système est réellement capable d'une lecture complète à 96 kHz [ 6 ], les fichiers ci-dessus doivent être complètement silencieux, sans bruits, tonalités, sifflets, clics ou autres sons. Si vous entendez quelque chose, votre système présente une non-linéarité provoquant une intermodulation audible des ultrasons. Soyez prudent lorsque vous augmentez le volume; un écrêtage numérique ou analogique, même un écrêtage doux, provoquera soudainement de fortes tonalités d'intermodulation.

En résumé, il n'est pas certain que l'intermodulation par ultrasons soit audible sur un système donné. La distorsion ajoutée pourrait être insignifiante ou elle pourrait être perceptible. Quoi qu'il en soit, le contenu ultrasonique n'est jamais un avantage, et sur de nombreux systèmes, il nuira de manière audible à la fidélité. Sur les systèmes, cela ne fait pas de mal, le coût et la complexité de la manipulation des ultrasons auraient pu être économisés ou dépensés pour améliorer les performances de la gamme audible à la place.

Échantillonnage des erreurs et des idées fausses

La théorie de l'échantillonnage est souvent peu intuitive sans quelques bases de traitement du signal. Il n'est pas surprenant que la plupart des gens, même des docteurs brillants dans d'autres domaines, le comprennent régulièrement de manière erronée. Il n'est également pas surprenant que beaucoup de gens ne réalisent même pas qu'ils se trompent.

Ci-dessus: Les signaux échantillonnés sont souvent représentés comme un escalier brut (rouge) qui semble une mauvaise approximation du signal d'origine. Cependant, la représentation est mathématiquement exacte et le signal retrouve la forme lisse exacte de l'original (bleu) lorsqu'il est reconverti en analogique.

L'idée fausse la plus courante est que l'échantillonnage est fondamentalement approximatif et avec perte. Un signal échantillonné est souvent décrit comme un fac-similé escalier en escalier aux angles durs de la forme d'onde parfaitement lisse d'origine. Si c'est ainsi que vous envisagez le fonctionnement de l'échantillonnage, vous pouvez penser que plus le taux d'échantillonnage (et plus de bits par échantillon) est rapide, plus la marche d'escalier est fine et plus l'approximation sera proche. Le signal numérique sonnerait de plus en plus près du signal analogique d'origine à mesure que la fréquence d'échantillonnage approche de l'infini.

De même, de nombreuses personnes non DSP examineraient les éléments suivants:

Il peut sembler qu'un signal échantillonné représente mal les formes d'onde analogiques à haute fréquence. Ou, à mesure que la fréquence audio augmente, la qualité échantillonnée diminue et la réponse en fréquence diminue ou devient sensible à la phase d'entrée.

Les regards sont trompeurs. Ces croyances sont incorrectes!

ajouté le 04/04/2013:
Pour faire suite à tout le courrier que j'ai reçu sur les formes d'onde numériques et les marches d'escalier, je démontre le comportement numérique réel sur de l'équipement réel dans notre vidéo Digital Show & Tell , vous n'avez donc pas besoin de me croire sur parole ici!

Tous les signaux dont le contenu est entièrement inférieur à la fréquence de Nyquist (la moitié du taux d'échantillonnage) sont capturés parfaitement et complètement par échantillonnage; un taux d'échantillonnage infini n'est pas requis. L'échantillonnage n'affecte pas la réponse en fréquence ou la phase. Le signal analogique peut être reconstruit sans perte, en douceur et avec la synchronisation exacte du signal analogique d'origine.

Le calcul est donc idéal, mais qu'en est-il des complications du monde réel? Le plus notoire est l'exigence de limitation de bande. Les signaux dont le contenu dépasse la fréquence de Nyquist doivent être filtrés "passe-bas" avant l'échantillonnage pour éviter une distorsion de repliement; ce passe-bas analogique est le fameux filtre anti-crénelage. L'anticrénelage ne peut pas être idéal dans la pratique, mais les techniques modernes le rapprochent beaucoup. ... et avec cela nous en arrivons au suréchantillonnage.

Suréchantillonnage

Les taux d'échantillonnage supérieurs à 48 kHz ne sont pas pertinents pour les données audio haute fidélité, mais ils sont essentiels en interne pour plusieurs techniques audio numériques modernes. Le suréchantillonnage est l'exemple le plus pertinent [ 7 ].

Le suréchantillonnage est simple et intelligent. Vous vous souviendrez peut-être de mon A Digital Media Primer for Geeks : les taux d'échantillonnage élevés offrent beaucoup plus d'espace entre l'audio à la fréquence la plus élevée qui nous tient à cœur (20 kHz) et la fréquence de Nyquist (la moitié de la fréquence d'échantillonnage). Cela permet des filtres anti-aliasing analogiques plus simples, plus lisses et plus fiables, et donc une fidélité plus élevée . Cet espace supplémentaire entre 20 kHz et la fréquence de Nyquist est essentiellement juste un remplissage spectral pour le filtre analogique.

Ci-dessus: Diagramme du tableau blanc de A Digital Media Primer for Geeks illustrant la largeur de bande de transition disponible pour un ADC / DAC 48 kHz (gauche) et un ADC / DAC 96 kHz (droite).

Ce n'est que la moitié de l'histoire. Parce que les filtres numériques ont peu de limitations pratiques d'un filtre analogique, nous pouvons compléter le processus d'anticrénelage avec une plus grande efficacité et précision numérique. Le signal numérique brut à très haut débit passe à travers un filtre anti-crénelage numérique, qui n'a aucun mal à adapter une bande de transition dans un espace restreint. Après cet anticrénelage numérique supplémentaire, les échantillons de remplissage supplémentaires sont simplement jetés. La lecture suréchantillonnée fonctionne approximativement en sens inverse.

Cela signifie que nous pouvons utiliser un audio à faible débit de 44,1 kHz ou 48 kHz avec tous les avantages de fidélité d'un échantillonnage de 192 kHz ou plus (réponse en fréquence fluide, faible aliasing) et aucun des inconvénients (ultrasons qui provoquent une distorsion d'intermodulation, espace perdu). Presque tous les convertisseurs analogique-numérique (ADC) et convertisseurs numérique-analogique (DAC) d'aujourd'hui suréchantillonnent à des taux très élevés. Peu de gens réalisent que cela se produit parce que c'est complètement automatique et caché.

Les ADC et les DAC n'ont pas toujours suréchantillonné de manière transparente. Il y a trente ans, certaines consoles d'enregistrement enregistrées à des taux d'échantillonnage élevés en utilisant uniquement des filtres analogiques, et la production et le mastering utilisaient simplement ce signal à haut débit. Les étapes d'anti-aliasing et de décimation numérique (rééchantillonnage à un taux inférieur pour les CD ou les DAT) ont eu lieu dans les dernières étapes de la maîtrise. Cela pourrait bien être l'une des premières raisons pour lesquelles 96 kHz et 192 kHz ont été associés à la production musicale professionnelle [ 8 ].

16 bits contre 24 bits

OK, donc les fichiers musicaux à 192 kHz n'ont aucun sens. Ca c'est fait !. Qu'en est-il de l'audio 16 bits contre 24 bits?

Il est vrai que l'audio PCM linéaire 16 bits ne couvre pas tout à fait la plage dynamique théorique de l'oreille humaine dans des conditions idéales. De plus, il y a (et il y aura toujours) des raisons d'utiliser plus de 16 bits pour l'enregistrement et la production.

Rien de tout cela n'est pertinent pour la lecture; ici, l'audio 24 bits est aussi inutile que l'échantillonnage à 192 kHz. La bonne nouvelle est qu'au moins 24 bits de profondeur ne nuisent pas à la fidélité. Cela gaspille juste inutilement de l'espace de stockage.

Revisiter vos oreilles

Nous avons discuté de la plage de fréquences de l'oreille, mais qu'en est-il de la plage dynamique du son le plus doux possible au son le plus fort possible?

Une façon de définir la plage dynamique absolue serait de revoir le seuil absolu de l'audition et le seuil des courbes de douleur. La distance entre le point le plus haut sur le seuil de la courbe de douleur et le point le plus bas sur le seuil absolu de la courbe d'audition est d'environ 140 décibels pour un jeune auditeur en bonne santé. Cela ne durerait pas longtemps cependant; + 130 dB est assez fort pour endommager l'ouïe de façon permanente en quelques secondes à quelques minutes. À titre de référence, un marteau-piqueur à un mètre ne fait que 100-110 dB.

Le seuil absolu d'audition augmente avec l'âge et la perte auditive. Fait intéressant, le seuil de douleur diminue avec l'âge au lieu d'augmenter. Les cellules ciliées de la cochlée elles-mêmes ne possèdent qu'une fraction de la plage de 140 dB de l'oreille; la musculature de l'oreille ajuste continuellement la quantité de son atteignant la cochlée en déplaçant les osselets, tout comme l'iris régule la quantité de lumière pénétrant dans l'œil [ 9 ]. Ce mécanisme se raidit avec l'âge, limitant la plage dynamique de l'oreille et réduisant l'efficacité de ses mécanismes de protection [ 10 ].

Bruit environnemental

Peu de gens réalisent à quel point le seuil absolu d'audition est calme.

Le son perceptible le plus silencieux est d'environ -8dbSPL [ 11 ]. À l'aide d'une échelle pondérée A, le bourdonnement d'une ampoule à incandescence de 100 watts à un mètre de distance est d'environ 10 dBSPL, soit environ 18 dB de plus. L'ampoule sera beaucoup plus forte sur un gradateur.

20 dBSPL (ou 28 dB plus fort que le son audible le plus silencieux) est souvent cité pour un studio de diffusion / enregistrement vide ou une salle d'isolation acoustique. C'est la référence pour un environnement exceptionnellement calme, et c'est une des raisons pour lesquelles vous n'avez probablement jamais remarqué entendre une ampoule.

La plage dynamique de 16 bits

Le PCM linéaire 16 bits a une plage dynamique de 96 dB selon la définition la plus courante, qui calcule la plage dynamique en dB (6 * bits). Beaucoup pensent que l'audio 16 bits ne peut pas représenter des sons arbitraires plus silencieux que -96 dB. Ceci est une erreur.

J'ai lié à deux fichiers audio 16 bits ici; l'un contient une tonalité de 1 kHz à 0 dB (où 0 dB est la tonalité la plus forte possible) et l'autre une tonalité de 1 kHz à -105 dB.

Échantillon 1: tonalité 1 kHz à 0 dB (WAV 16 bits / 48 kHz)
Exemple 2: tonalité 1 kHz à -105 dB (WAV 16 bits / 48 kHz)

Ci-dessus: Analyse spectrale d'une tonalité de -105 dB codée en PCM 16 bits / 48 kHz. Le PCM 16 bits est clairement plus profond que 96 dB, sinon une tonalité de -105 dB ne pourrait pas être représentée, ni audible.

Comment est-il possible de coder ce signal, de le coder sans distorsion, et de le coder bien au-dessus du plancher de bruit, lorsque son amplitude de crête est d'un tiers de bit?

Une partie de ce casse-tête est résolue par un tramage approprié, qui rend le bruit de quantification indépendant du signal d'entrée. Par implication, cela signifie que la quantification tramée n'introduit aucune distorsion, juste du bruit non corrélé. Cela implique à son tour que nous pouvons coder des signaux de profondeur arbitraire, même ceux avec des amplitudes de crête beaucoup plus petites qu'un bit [ 12 ]. Cependant, le tramage ne change pas le fait qu'une fois qu'un signal descend sous le plancher de bruit, il devrait effectivement disparaître. Comment la tonalité de -105 dB est-elle toujours clairement audible au-dessus d'un bruit de fond de -96 dB?

La réponse: notre valeur de bruit de fond de -96 dB est effectivement fausse; nous utilisons une définition inappropriée de la plage dynamique. (6 * bits) dB nous donne le bruit RMS de l'ensemble du signal à large bande, mais chaque cellule ciliée de l'oreille n'est sensible qu'à une fraction étroite de la bande passante totale. Comme chaque cellule ciliée n'entend qu'une fraction de l'énergie totale du plancher de bruit, le plancher de bruit de cette cellule ciliée sera beaucoup plus faible que le chiffre à large bande de -96 dB.

Ainsi, l'audio 16 bits peut aller considérablement plus loin que 96 dB. Avec l'utilisation du tramage en forme, qui déplace l'énergie du bruit de quantification vers des fréquences où il est plus difficile à entendre, la plage dynamique effective de l'audio 16 bits atteint 120 dB en pratique [ 13 ], plus de quinze fois plus profonde que la revendication de 96 dB.

120dB est plus grand que la différence entre un moustique quelque part dans la même pièce et un marteau-piqueur à un pied ... ou la différence entre une pièce "insonorisée" déserte et un son suffisamment fort pour causer des dommages auditifs en quelques secondes.

16 bits est suffisant pour stocker tout ce que nous pouvons entendre, et sera suffisant pour toujours.

Rapport signal sur bruit

Il convient de mentionner brièvement que le rapport S / N de l'oreille est inférieur à sa plage dynamique absolue. Dans une bande critique donnée, le rapport signal / bruit typique n'est estimé qu'à environ 30 dB. Le rapport signal / bruit relatif n'atteint pas la plage dynamique complète même si l'on considère des bandes largement espacées. Cela garantit que le PCM linéaire 16 bits offre une résolution plus élevée que celle réellement requise.

Il convient également de mentionner que l'augmentation de la profondeur de bits de la représentation audio de 16 à 24 bits n'augmente pas la résolution perceptible ou la «finesse» de l'audio. Il n'augmente que la plage dynamique, la plage entre le son le plus doux possible et le plus fort possible, en abaissant le bruit de fond. Cependant, un bruit de fond de 16 bits est déjà inférieur à ce que nous pouvons entendre.

Quand le 24 bits est-il important?

Les professionnels utilisent des échantillons 24 bits pour l'enregistrement et la production [ 14 ] pour des raisons de marge, de bruit de fond et de commodité.

16 bits suffisent pour couvrir la vraie plage auditive avec de la place à revendre. Il ne couvre pas toute la gamme de signaux possible des équipements audio. La principale raison d'utiliser 24 bits lors de l'enregistrement est d'éviter les erreurs; plutôt que de faire attention à centrer l'enregistrement 16 bits - risquer l'écrêtage si vous devinez trop élevé et ajouter du bruit si vous devinez trop faible - 24 bits permet à un opérateur de définir un niveau approximatif et de ne pas trop s'en inquiéter. Manquer le réglage de gain optimal de quelques bits n'a aucune conséquence et les effets qui compressent dynamiquement la plage enregistrée ont un plancher profond avec lequel travailler.

Un ingénieur a également besoin de plus de 16 bits lors du mixage et du mastering. Les flux de travail modernes peuvent impliquer littéralement des milliers d'effets et d'opérations. Le bruit de quantification et le bruit de fond d'un échantillon de 16 bits peuvent être indétectables pendant la lecture, mais la multiplication de ce bruit par quelques milliers de fois devient finalement perceptible. 24 bits maintient le bruit accumulé à un niveau très bas. Une fois que la musique est prête à être distribuée, il n'y a aucune raison de conserver plus de 16 bits.

Tests d'écoute

La compréhension est le point de rencontre de la théorie et de la réalité. Une affaire n'est réglée que lorsque les deux sont d'accord.

Les preuves empiriques des tests d'écoute confirment l'affirmation selon laquelle 44,1 kHz / 16 bits offre une lecture de fidélité la plus élevée possible. Il existe de nombreux tests contrôlés confirmant cela, mais je vais brancher un article récent, Audibility of a CD-Standard A / D / A Loop Inserted into High-Resolution Audio Playback , réalisé par des gens d'ici à la Boston Audio Society .

Malheureusement, le téléchargement du document complet nécessite une adhésion à l'AES. Cependant, il a été largement discuté dans des articles et sur des forums, avec les auteurs se joignant à. Voici quelques liens:

Cet article a présenté aux auditeurs un choix entre un contenu DVD-A / SACD à haut débit, choisi par des défenseurs de l'audio haute définition pour montrer la supériorité de la haute définition, et ce même contenu rééchantillonné sur place jusqu'à 16 bits / 44,1 kHz Compact Taux de disque. Les auditeurs ont été mis au défi d'identifier toute différence entre les deux en utilisant une méthodologie ABX. BAS a effectué le test en utilisant un équipement professionnel haut de gamme dans des environnements d'écoute de studio isolés par le bruit avec des auditeurs amateurs et professionnels formés.

Dans 554 essais, les auditeurs ont choisi correctement 49,8% du temps. En d'autres termes, ils devinaient. Pas un seul auditeur tout au long du test n'a pu identifier celui qui était 16 / 44,1 et celui qui était à haut débit [ 15 ], et le signal 16 bits n'était même pas tramé!

Une autre étude récente [ 16 ] a étudié la possibilité que les ultrasons soient audibles, comme l'ont suggéré des études antérieures. Le test a été conçu pour maximiser la possibilité de détection en plaçant les produits d'intermodulation là où ils seraient le plus audibles. Il a constaté que les sons ultrasoniques n'étaient pas audibles ... mais les produits de distorsion d'intermodulation introduits par les haut-parleurs pourraient l'être.

Cet article a inspiré de nombreuses recherches supplémentaires, dont la plupart avec des résultats mitigés. Une partie de l'ambiguïté s'explique par la constatation que les ultrasons peuvent également induire plus de distorsion d'intermodulation que prévu dans les amplificateurs de puissance. Par exemple, David Griesinger a reproduit cette expérience [ 17 ] et a constaté que sa configuration de haut-parleur n'introduisait pas de distorsion d'intermodulation audible par ultrasons, mais son amplificateur stéréo l'a fait.

Caveat Lector

Il est important de ne pas sélectionner les articles individuels ou les «commentaires d'experts» hors de leur contexte ou de sources intéressées. Tous les articles ne sont pas entièrement d'accord avec ces résultats (et certains sont en désaccord en grande partie), il est donc facile de trouver des opinions minoritaires qui semblent justifier toutes les conclusions imaginables. Quoi qu'il en soit, les articles et les liens ci-dessus sont représentatifs du vaste poids et de l'étendue du dossier expérimental. Aucun article évalué par les pairs qui a résisté à l'épreuve du temps n'est en désaccord avec ces résultats. La controverse n'existe qu'au sein des communautés d'audiophiles consommateurs et passionnés.

Si quoi que ce soit, le nombre de résultats expérimentaux ambigus, non concluants et carrément invalides disponibles via Google souligne à quel point il est difficile de construire un test précis et objectif. Les différences que les chercheurs recherchent sont infimes; ils nécessitent une analyse statistique rigoureuse pour repérer les choix subconscients qui échappent à la conscience des sujets testés. Le fait que nous essayions probablement de «prouver» quelque chose qui n'existe pas rend la tâche encore plus difficile. Prouver une hypothèse nulle revient à prouver le problème d'arrêt; tu ne peux pas. Vous ne pouvez collecter que des preuves qui donnent un poids écrasant.

Malgré cela, les articles qui confirment l'hypothèse nulle sont des preuves particulièrement solides; confirmer l'inaudibilité est beaucoup plus difficile expérimentalement que de le contester. Des erreurs non découvertes dans les méthodes de test et l'équipement produisent presque toujours des résultats faussement positifs (en introduisant accidentellement des différences audibles) plutôt que de faux négatifs.

Si les chercheurs professionnels ont tellement de mal à tester correctement les différences audibles minuscules et isolées, vous pouvez imaginer à quel point c'est difficile pour les amateurs.

Comment [par inadvertance] bousiller une comparaison d'écoute

Le commentaire numéro un que j'ai entendu de la part des adeptes de l'audio à très haut débit était [paraphrasant]: "J'ai écouté l'audio à haut débit moi-même et l'amélioration est évidente. Vous me dites sérieusement de ne pas faire confiance à mes propres oreilles?"

Bien sûr, vous pouvez faire confiance à vos oreilles. Ce sont des cerveaux crédules. Je ne veux pas dire cela avec désinvolture; en tant qu'êtres humains, nous sommes tous câblés de cette façon.

Biais de confirmation, effet placebo et double aveugle

Dans tout test où un auditeur peut distinguer deux choix l'un de l'autre par tout autre moyen que l'écoute, les résultats seront généralement ceux que l'auditeur attendait à l'avance; c'est ce qu'on appelle le biais de confirmation et il est similaire à l' effet placebo . Cela signifie que les gens `` entendent '' les différences en raison de repères et de préférences subconscients qui n'ont rien à voir avec l'audio, comme préférer un amplificateur plus cher (ou plus attrayant) à une option moins chère.

Le cerveau humain est conçu pour remarquer des modèles et des différences, même là où il n'en existe pas. Cette tendance ne peut pas simplement être désactivée lorsqu'une personne est invitée à prendre des décisions objectives; c'est complètement inconscient. Un parti pris ne peut pas non plus être vaincu par un simple scepticisme. Une expérimentation contrôlée montre que la conscience du biais de confirmation peut augmenter plutôt que diminuer l'effet! Un test qui n'élimine pas soigneusement le biais de confirmation est sans valeur [ 18 ].

Dans les tests en simple aveugle , un auditeur ne sait rien à l'avance sur les choix de test et ne reçoit aucune rétroaction au cours du test. Le test en simple aveugle est meilleur que la comparaison occasionnelle, mais il n'élimine pas le biais de l' expérimentateur . L'administrateur du test peut facilement influencer le test par inadvertance ou transférer son propre biais subconscient à l'auditeur par des signaux involontaires (par exemple, «Êtes-vous sûr que c'est ce que vous entendez?», Langage corporel indiquant un «mauvais» choix, hésitant par inadvertance, etc. ). Il a également été démontré expérimentalement que le biais d'un expérimentateur influence les résultats d'un sujet de test.

Les tests d'écoute en double aveugle sont l'étalon-or; dans ces tests, ni l'administrateur du test ni le candidat n'ont aucune connaissance du contenu du test ou des résultats en cours. Les tests ABX exécutés par ordinateur sont l'exemple le plus célèbre, et il existe des outils disponibles gratuitement pour effectuer des tests ABX sur votre propre ordinateur [ 19 ]. ABX est considéré comme une barre minimale pour qu'un test d'écoute soit significatif; les forums audio réputés tels que Hydrogen Audio n'autorisent souvent même pas la discussion des résultats d'écoute à moins qu'ils ne répondent à cette exigence d'objectivité minimale [ 20 ].

Ci-dessus: Squishyball, un simple outil ABX en ligne de commande, fonctionnant dans un xterm.

Personnellement, je ne fais aucun test de comparaison de qualité pendant le développement, même occasionnel, sans outil ABX. La science est la science, pas de relâchement.

Astuces de Loudness

L'oreille humaine peut discriminer consciemment des différences d'amplitude d'environ 1 dB, et les expériences montrent une conscience subconsciente des différences d'amplitude sous 0,2 dB. Les humains considèrent presque universellement un son plus fort pour un meilleur son, et 0,2 dB est suffisant pour établir cette préférence. Toute comparaison qui ne parvient pas à faire correspondre soigneusement l'amplitude aux choix verra le choix le plus fort préféré, même si la différence d'amplitude est trop petite pour être consciente. Les vendeurs stéréo connaissent cette astuce depuis longtemps.

La norme de test professionnelle consiste à faire correspondre les sources à 0,1 dB ou mieux. Cela nécessite souvent l'utilisation d'un oscilloscope ou d'un analyseur de signal. Deviner en tournant les boutons jusqu'à ce que deux sources sonnent de la même manière n'est pas suffisant.

Coupure

L'écrêtage est une autre erreur facile, parfois évidente seulement rétrospectivement. Même quelques échantillons écrêtés ou leurs effets secondaires sont faciles à entendre par rapport à un signal non écrêté.

Le danger d'écrêtage est particulièrement pernicieux dans les tests qui créent, rééchantillonnent ou manipulent autrement des signaux numériques à la volée. Supposons que nous voulons comparer la fidélité de l'échantillonnage à 48 kHz à un échantillon source à 192 kHz. Un moyen typique consiste à sous-échantillonner de 192 kHz à 48 kHz, à le rééchantillonner à 192 kHz, puis à le comparer à l'échantillon original de 192 kHz dans un test ABX [ 21 ]. Cette disposition nous permet d'éliminer toute possibilité de variation d'équipement ou de changement d'échantillon influençant les résultats; nous pouvons utiliser le même DAC pour jouer les deux échantillons et basculer entre sans aucun changement de mode matériel.

Malheureusement, la plupart des échantillons sont maîtrisés pour utiliser la gamme numérique complète. Le rééchantillonnage naïf peut et se coupera souvent de temps en temps. Il est nécessaire de surveiller l'écrêtage (et de supprimer l'audio écrêté) ou d'éviter l'écrêtage par d'autres moyens tels que l'atténuation.

Différents médias, différents maîtres

J'ai parcouru quelques articles et articles de blog qui déclarent les vertus du 24 bits ou 96 / 192kHz en comparant un CD à un DVD audio (ou SACD) du `` même '' enregistrement. Cette comparaison n'est pas valide; les maîtres sont généralement différents.

Indices par inadvertance

Les signaux audibles par inadvertance sont presque incontournables dans les anciennes configurations de test analogiques et hybrides numériques / analogiques. Les configurations de test purement numériques peuvent éliminer complètement le problème dans certaines formes de test, mais aussi multiplier le potentiel de bogues logiciels complexes. De telles limitations et bogues ont une longue histoire de résultats faussement positifs lors des tests [ 22 ].

The Digital Challenge - More on ABX Testing , raconte une histoire fascinante d'un test d'écoute spécifique réalisé en 1984 pour réfuter les autorités audiophiles de l'époque qui affirmaient que les CD étaient intrinsèquement inférieurs au vinyle. L'article ne s'intéresse pas tellement aux résultats du test (que je suppose que vous pourrez deviner), mais aux processus et au désordre du monde réel impliqués dans la conduite d'un tel test. Par exemple, une erreur de la part des testeurs a révélé par inadvertance qu'un expert audiophile invité n'avait pas fait de choix basés sur la fidélité audio, mais plutôt en écoutant les clics légèrement différents produits par les relais analogiques du commutateur ABX!

Les anecdotes ne remplacent pas les données, mais cette histoire est révélatrice de la facilité avec laquelle les défauts non découverts peuvent biaiser les tests d'écoute. Certaines des croyances audiophiles discutées ici sont également très divertissantes; on espère que certains exemples modernes seront considérés comme aussi idiots dans 20 ans.

Enfin, la bonne nouvelle

Qu'est-ce qui fonctionne réellement pour améliorer la qualité de l'audio numérique que nous écoutons?

De meilleurs écouteurs

La solution la plus simple n'est pas numérique. L'amélioration de la fidélité la plus spectaculaire possible pour le coût provient d'une bonne paire d'écouteurs. Sur l'oreille, dans l'oreille, ouverte ou fermée, peu importe. Ils n'ont même pas besoin d'être chers, bien que des écouteurs coûteux puissent en valoir la peine.

Gardez à l'esprit que certains écouteurs sont chers car ils sont bien fabriqués, durables et sonnent bien. D'autres sont chers car ce sont des écouteurs de 20 $ sous une couche de plusieurs centaines de dollars de style, de marque et de marketing. Je ne ferai pas de recommandations spécifiques ici, mais je dirai que vous ne trouverez probablement pas de bons écouteurs dans un magasin à grande surface, même s'il est spécialisé dans l'électronique ou la musique. Comme dans tous les autres aspects de la hi-fi grand public, faites vos recherches (et mettez en garde l'émpteur).

Formats sans perte

Il est assez vrai qu'un fichier Ogg correctement encodé (ou un fichier MP3 ou AAC) ne pourra pas être distingué de l'original à un débit binaire modéré.

Mais qu'en est-il des fichiers mal encodés?

Il y a vingt ans, tous les encodeurs mp3 étaient vraiment mauvais par rapport aux normes d'aujourd'hui. Beaucoup de ces anciens encodeurs défectueux sont toujours utilisés, probablement parce que les licences sont moins chères et la plupart des gens ne peuvent pas faire la différence ou s'en moquent de toute façon. Pourquoi une entreprise dépenserait-elle de l’argent pour réparer ce qu’elle ne sait pas du tout?

Passer à un format plus récent comme Vorbis ou AAC n'aide pas nécessairement. Par exemple, de nombreuses entreprises et particuliers ont utilisé (et utilisent toujours) l'encodeur Vorbis intégré de très basse qualité de FFmpeg car il s'agissait de la valeur par défaut dans FFmpeg et ils ne savaient pas à quel point c'était mauvais. AAC a une histoire encore plus longue d'encodeurs largement déployés et de faible qualité; tous les formats avec perte traditionnels le font.

Les formats sans perte comme FLAC évitent toute possibilité d'endommager la fidélité audio [ 23 ] avec un encodeur avec perte de mauvaise qualité, ou même avec un bon encodeur avec perte utilisé de manière incorrecte.

Une deuxième raison de distribuer des formats sans perte est d'éviter la perte générationnelle. Chaque réencodage ou transcodage perd plus de données; même si le premier encodage est transparent, il est très possible que le second ait des artefacts audibles. Cela est important pour quiconque souhaite remixer ou échantillonner à partir de téléchargements. Cela est particulièrement important pour nous, chercheurs en codec; nous avons besoin d'un son clair pour travailler.

De meilleurs maîtres

Le test BAS que j'ai lié précédemment mentionne en passant que la version SACD d'un enregistrement peut sonner sensiblement mieux que la version CD. Ce n'est pas à cause de l'augmentation de la fréquence d'échantillonnage ou de la profondeur mais parce que le SACD a utilisé un maître de meilleure qualité. Lorsqu'elle est renvoyée sur un CD-R, la version SACD semble toujours aussi bonne que la SACD d'origine et meilleure que la version CD, car l'audio d'origine utilisé pour créer la SACD était meilleur. Une bonne production et un bon mastering contribuent évidemment à la qualité finale de la musique [ 24 ].

La récente couverture de «Mastered for iTunes» et d'initiatives similaires d'autres labels de l'industrie est quelque peu encourageante. Ce qui reste à voir, c'est si Apple et les autres «l'obtiennent» ou si ce n'est qu'un crochet pour vendre aux consommateurs une autre copie plus chère de la musique qu'ils possèdent déjà.

Entourer

Un autre «crochet de vente» possible, que j'accepterais avec enthousiasme, est celui des enregistrements surround. Malheureusement, il y a un péril technique ici.

Le surround discret à l'ancienne avec de nombreux canaux (5.1, 7.1, etc.) est une relique technique remontant aux théâtres des années 1960. Il est inefficace, utilisant plus de canaux que les systèmes concurrents. L'image surround est limitée et a tendance à s'effondrer vers les enceintes les plus proches lorsqu'un auditeur s'assoit ou se déplace hors de position.

Nous pouvons représenter et encoder une localisation excellente et robuste avec des systèmes comme Ambisonics. Les problèmes sont le coût de l'équipement de reproduction et le fait que quelque chose encodé pour un champ sonore naturel sonne mal lorsqu'il est mixé en stéréo et ne peut pas être créé artificiellement de manière convaincante. Il est difficile de simuler des ambisoniques ou un son holographique, un peu comme la façon dont la vidéo 3D semble toujours dégénérer en un gadget criard qui rend de manière fiable 5% de la population malade.

L'audio binaural est également difficile. Vous ne pouvez pas le simuler car cela fonctionne légèrement différemment chez chaque personne. C'est une compétence acquise réglée sur le système d'auto-assemblage des pennes, des canaux auditifs et du traitement neuronal, et elle ne s'assemble jamais exactement de la même manière chez deux individus. Les gens déplacent également inconsciemment la tête pour améliorer la localisation et ne peuvent pas bien localiser à moins qu'ils ne le fassent. C'est quelque chose qui ne peut pas être capturé dans un enregistrement binaural, bien qu'il puisse dans une certaine mesure en surround fixe.

Ce sont des obstacles techniques à peine impossibles. Le surround discret a fait ses preuves sur le marché, et je suis personnellement particulièrement enthousiasmé par les possibilités offertes par Ambisonics.

Outro

"Je n'ai jamais beaucoup aimé la musique.
C'est la haute fidélité!"
—Flanders & Swann, une chanson de reproduction

Le fait est d'apprécier la musique, non? La fidélité de lecture moderne est incompréhensiblement meilleure que les excellents systèmes analogiques disponibles il y a une génération. L'extrême logique est-il plus qu'un simple problème du premier monde ? Peut-être, mais de mauvais mélanges et codages ne me dérange pas; ils me distraient de la musique, et je ne suis probablement pas seul.

Pourquoi repousser le 24/192? Parce que c'est une solution à un problème qui n'existe pas, un modèle d'entreprise basé sur l'ignorance volontaire et l'escroquerie. Plus la pseudoscience est incontrôlée dans le monde en général, plus il est difficile pour la vérité de vaincre la véracité ... même s'il s'agit d'un petit exemple relativement insignifiant.

"Pour moi, il vaut bien mieux saisir l'Univers tel qu'il est réellement que de persister dans l'illusion, aussi satisfaisante et rassurante soit-elle."
-Carl Sagan

Lectures complémentaires

Les lecteurs m'ont alerté sur une paire d'excellents articles dont je n'étais pas au courant avant de commencer mon propre article. Ils abordent plusieurs des mêmes points que moi plus en détail.

Le codage audio numérique de haute qualité par Bob Stuart de Meridian Audio est magnifiquement concis malgré sa plus grande longueur. Nos conclusions diffèrent quelque peu (il considère comme étant donné la nécessité d'une plage de fréquences et d'une profondeur de bits légèrement plus larges sans beaucoup de justification), mais la présentation est claire et facile à suivre. [Edit: Je ne suis peut-être pas d'accord avec beaucoup d'autres articles de M. Stuart, mais j'aime beaucoup celui-ci.]
La théorie de l'échantillonnage pour l'audio numérique [Lien mis à jour le 2012-10-04] par Dan Lavry de Lavry Engineering est un autre article que plusieurs lecteurs ont souligné. Il développe mes deux pages environ sur l'échantillonnage, le suréchantillonnage et le filtrage en un traitement plus détaillé de 27 pages. Ne vous inquiétez pas, il existe de nombreux graphiques, exemples et références.

Stephane Pigeon de audiocheck.net a écrit pour brancher les tests d'écoute basés sur le navigateur présentés sur son site Web. L'ensemble de tests est encore relativement petit, mais plusieurs étaient directement pertinents dans le contexte de cet article. Ils ont bien fonctionné et j'ai trouvé la qualité assez bonne.

Notes de bas de page

Comme l'a écrit une affiche frustrée:

"[Le théorème d'échantillonnage] n'a pas été inventé pour expliquer le fonctionnement de l'audio numérique, c'est l'inverse. L'audio numérique a été inventé à partir du théorème, si vous ne croyez pas le théorème, vous ne pouvez pas croire non plus à l'audio numérique !! "
http://www.head-fi.org/t/415361/24bit-vs-16bit-the-myth-exploded
Si ce n'était pas le tour de soirée le plus ennuyeux, c'était assez proche.
Il est plus courant de parler de lumière visible comme de longueurs d'onde mesurées en nanomètres ou angströms. J'utilise la fréquence pour être cohérent avec le son. Ils sont équivalents, car la fréquence est juste l'inverse de la longueur d'onde.
L'expérience LED ne fonctionne pas avec les LED `` ultraviolettes '', principalement parce qu'elles ne sont pas vraiment ultraviolettes. Ils sont suffisamment violets pour provoquer un peu de fluorescence, mais ils sont toujours bien dans la plage visible. Les vraies LED ultraviolettes coûtent entre 100 $ et 1 000 $ chacune et causeraient des dommages aux yeux si elles étaient utilisées pour ce test. Les LED non UV vraiment de qualité grand public émettent également un peu de lumière blanche afin de paraître plus brillantes, de sorte que vous seriez en mesure de les voir même si le pic d'émission était vraiment dans l'ultraviolet.
La version originale de cet article indiquait que les LED IR fonctionnent à partir de 300-325THz (environ 920-980nm), des longueurs d'onde invisibles. Un certain nombre de lecteurs ont écrit pour dire qu'ils pouvaient en fait à peine voir les LED dans certaines (ou toutes) de leurs télécommandes. Plusieurs ont eu la gentillesse de me faire savoir de quelles télécommandes il s'agissait, et j'ai pu en tester plusieurs sur un spectromètre. Et voilà, ces télécommandes utilisaient des LED à haute fréquence fonctionnant de 350 à 380 THz (800 à 850 nm), chevauchant simplement le bord extrême de la plage visible.
De nombreux systèmes qui ne peuvent pas lire les échantillons à 96 kHz seront sous-échantillonnés en silence à 48 kHz, plutôt que de refuser de lire le fichier. Dans ce cas, les tonalités ne seront pas jouées du tout et la lecture sera silencieuse, quelle que soit la linéarité du système.
Le suréchantillonnage n'est pas la seule application pour des taux d'échantillonnage élevés dans le traitement du signal. Il existe quelques avantages théoriques à produire de l'audio à bande limitée à un taux d'échantillonnage élevé en évitant la décimation, même s'il doit être sous-échantillonné pour la distribution. On ne sait pas exactement s'il en est utilisé dans la pratique, car le fonctionnement de la plupart des consoles professionnelles sont des secrets commerciaux.
Raisonnement historique ou non, il ne fait aucun doute que de nombreux professionnels utilisent aujourd'hui des taux élevés car ils supposent à tort que conserver un contenu au-delà de 20 kHz sonne mieux, tout comme les consommateurs.
La sensation de tympan «décroissant» après avoir coupé la musique forte est bien réelle!
De jolis diagrammes peuvent être trouvés sur le site HyperPhysics:
http://hyperphysics.phy-astr.gsu.edu/hbase/sound/protect.html#c1
20 µPa est communément défini comme étant 0 dB à des fins de mesure auditive; il est approximativement égal au seuil d'audition à 1 kHz. L'oreille est cependant jusqu'à 8 dB plus sensible entre 2 et 4 kHz.
L'article suivant a la meilleure explication du tramage que j'ai rencontré. Bien qu'il s'agisse de tramage d'image, la première moitié couvre la théorie et la pratique du tramage en audio avant d'étendre son utilisation aux images:

Cameron Nicklaus Christou, Dither optimal et mise en forme du bruit dans le traitement d'image
Les ingénieurs DSP peuvent souligner, comme l'a fait l'un de mes propres compatriotes smart-alec, que l'audio 16 bits a une plage dynamique théoriquement infinie pour un son pur si vous êtes autorisé à utiliser une transformée de Fourier infinie pour l'extraire; ce concept est très important pour la radioastronomie.

Bien que l'oreille ne fonctionne pas entièrement contrairement à une transformée de Fourier, sa résolution est relativement limitée. Cela limite la profondeur dynamique pratique maximale des signaux audio 16 bits.
La production utilise de plus en plus le flottant 32 bits, à la fois parce qu'il est très pratique sur les processeurs modernes et parce qu'il élimine complètement la possibilité d'écrêtage accidentel à tout moment sans être découvert et ruinant un mix.
Plusieurs lecteurs ont voulu savoir comment, si les ultrasons pouvaient provoquer une distorsion d'intermodulation audible, le test de Meyer et Moran 2007 aurait pu produire un résultat nul.

Il devrait être évident que «peut» et «parfois» ne sont pas les mêmes que «volonté» et «toujours». La distorsion d'intermodulation due aux ultrasons est une possibilité, et non une certitude, dans un système donné pour un ensemble donné de matériaux. Le résultat nul de Meyer et Moran indique que la distorsion d'intermodulation était inaudible sur les systèmes utilisés au cours de leurs tests.

Les lecteurs sont invités à essayer le test de distorsion par intermodulation ultrasonique simple ci-dessus pour une vérification rapide du potentiel d'intermodulation de leur propre équipement.
Karou et Shogo, Détection de seuil pour les tonalités supérieures à 22 kHz (2001). Document de convention 5401 présenté à la 110e convention, 12-15 mai 2001, Amsterdam.
Griesinger, Perception de la distorsion d'intermodulation moyenne et haute fréquence dans les haut-parleurs, et sa relation avec l'audio haute définition
Depuis la publication, plusieurs commentateurs m'ont écrit avec des versions similaires de la même anecdote [paraphrasée]: "Une fois, j'ai écouté des écouteurs / amplis / enregistrements qui attendaient le résultat [A] mais j'ai été totalement surpris de trouver [B] à la place! Le biais de confirmation est hooey ! "

J'offre deux réflexions.

Premièrement, le biais de confirmation ne remplace pas tous les résultats corrects par des résultats incorrects. Il biaise les résultats dans une direction incontrôlée d'un montant inconnu. Comment pouvez-vous dire le bien ou le mal avec certitude si le test est truqué par votre propre subconscient? Disons que vous vous attendiez à entendre une grande différence, mais que vous avez été choqué d'entendre une petite différence. Et s'il n'y avait en fait aucune différence? Ou, peut-être qu'il y avait une différence et, étant conscient d'un biais potentiel, votre scepticisme bien intentionné a été surcompensé? Ou peut-être aviez-vous parfaitement raison? Les tests objectifs, comme ABX, éliminent toute cette incertitude.

Deuxièmement, "Donc, vous pensez que vous n'êtes pas biaisé? Génial! Prouvez-le!" La valeur d'un test objectif réside non seulement dans sa capacité à informer sa propre compréhension, mais aussi à convaincre les autres. Les réclamations nécessitent une preuve. Les réclamations extraordinaires nécessitent une preuve extraordinaire.
Les outils les plus simples à utiliser pour les tests ABX sont probablement:
- Foobar2000 avec le plug-in ABX
- Squishyball , un outil en ligne de commande Linux que nous utilisons dans Xiph
Chez Hydrogen Audio, l'exigence de test objectif est abrégée TOS8 car il s'agit du huitième élément des conditions d'utilisation.
On suppose généralement que le rééchantillonnage endommage irrémédiablement un signal; ce n'est pas le cas. À moins que l'on ne commette une erreur évidente, comme provoquer un écrêtage, le signal sous-échantillonné puis suréchantillonné sera indiscernable de l'original. Il s'agit du test habituel utilisé pour établir que des taux d'échantillonnage plus élevés ne sont pas nécessaires.
Ce n'est peut-être pas strictement lié à l'audio, mais ... des neutrinos plus rapides que la lumière, n'importe qui?
Le magazine Wired implique que les formats sans perte comme FLAC ne sont pas toujours complètement sans perte :

"Certains puristes vous diront d'ignorer complètement les FLAC et d'acheter simplement des WAV. [...] En achetant des WAV, vous pouvez éviter la perte de données potentielle encourue lorsque le fichier est compressé en FLAC. Cette perte de données est rare, mais cela arrive . "

C'est faux. Un processus de compression sans perte ne modifie en aucune façon les données d'origine et FLAC ne fait pas exception.

Dans le cas où Wired faisait référence à une corruption matérielle des fichiers de données (défaillance du disque, défaillance de la mémoire, taches solaires), FLAC et WAV seraient tous deux affectés. Un fichier FLAC, cependant, est une somme de contrôle et détecterait la corruption. Le fichier FLAC est également plus petit que le WAV, et donc une corruption aléatoire serait moins probable car il y a moins de données qui pourraient être affectées.
La `` guerre du Loudness '' est un exemple couramment cité de mauvaises pratiques de mastering dans l'industrie aujourd'hui, même si ce n'est pas le seul. L'intensité est également un phénomène plus ancien que l'article de Wikipédia laisse croire au lecteur; dès les années 1950, les artistes et les producteurs ont poussé pour les enregistrements les plus forts possibles. Les fournisseurs d'équipement ont de plus en plus recherché et commercialisé de nouvelles technologies pour permettre aux maîtres de plus en plus chauds. Un équipement de mastering de vinyle avancé dans les années 1970 et 1980, par exemple, des enveloppes de rainures suivies et imbriquées lorsque cela est possible afin de permettre des amplitudes plus élevées que l'espacement des rainures ne le permettrait normalement.

La technologie numérique d'aujourd'hui a permis d'augmenter le volume à un niveau absurde. Il fournit également une pléthore de plug-ins DAW propriétaires automatiques, très complexes qui sont déployés en masse sans une large compréhension de leur fonctionnement ou de ce qu'ils font vraiment.

—Monty ( monty@xiph.org) 1er mars 2012
dernière révision le 25 mars 2012 pour ajouter les améliorations suggérées par les lecteurs.
Les modifications et corrections apportées après cette date sont marquées en ligne, à l'exception des fautes d'orthographe
repérées le 30 décembre 2012 et le 15 mars 2014, et un «est» supplémentaire supprimé le 1er avril 2013]

lundi 8 juin 2020

Créer son service de streaming Hifi privé

Comment créer son service de streaming Hifi privé ?

Si vous possédez une médiathèque musicale de qualité et relativement large, c'est dommage d'avoir acheté tous ces albums et de devoir s'abonner à un fournisseur de service streaming pour les écouter quand vous êtes en déplacement ...

Peut-être vous êtes vous déjà demandé s'il serait possible de créer un service de streaming privé et ainsi remplacer Spotify, Qobuz, Tidal, etc... pour jouer votre propre médiathèque en qualité CD ?

C'est possible et assez simple, il faut juste disposer de :

Un serveur NAS : par exemple un NAS Linux, ou un NAS Windows, ou un NAS Synology, ou un simple PC Linux ou Windows... ou même un mobile Android avec suffisamment de capacité de stockage.
BubbleUPNP Server (logiciel disponible en téléchargement libre, installé sur le NAS précédant). BubbleUPNP Server est un proxy UPNP : il transforme votre NAS en serveur de diffusion DLNA ultra polyvalent et "Internet ready"
l'Application BubbleUPNP sur le mobile/tablette Android (~ 4€ sur Play Store) et/ou Foobar2000 sous Windows

La configuration de BubbleUPNP est simple et bien documentée :

https://www.bubblesoftapps.com/bubbleupnpserver2

BubbleUPNP Server se configure graphiquement via le navigateur (voir copie d'écran ci-dessous).

Au niveau de la BOX Internet : ajouter deux redirections de ports 58050 et 58051, comme illustré ci-dessous.

BubbleUPNP permet :

D'accéder à votre bibliothèque depuis chez vous (FLAC, AAC, OGG, ...) avec une interface lecteur très ergonomique, bookmarks, multiples réglages de personnalisation, playlists, etc... et en ajoutant la compatibilité de certains formats de fichiers à vos récepteurs Chromecast ou DLNA.
D'accéder à cette même bibliothèque (FLAC, AAC, OGG, ...) depuis Internet (train, bureau, vacances...) de façon sécurisée et authentifiée avec la même interface player ergonomique. En fait on ne se rend pas compte du passage en mode Internet : c'est transparent : votre bibliothèque est disponible depuis la même appli "partout".
Depuis l'application Android BubbleUPNP : streamer sur n'importe quel enceinte / ampli connecté au réseau, Chromecast ou DLNA, ou en Bluetooth (BubbleUPNP Android est l'un des rares lecteurs qui supportent presque toutes les enceintes / amplis connectés).

Comme ça vous n'aurez pas ripé vos CD pour rien ;) ... et 1 an d'abonnement Qobuz "Hires" économisé vous permettra d'acheter quelques dizaines d'albums afin de les intégrer à "votre" médiathèque BubbleUPNP (Hires elle aussi, si vous voulez, ou en tout cas qualité CD, car le Hires n'apporte rien ... mais ça c'est une autre histoire ...). Vous pourrez en faire profiter toute votre famille et vos amis : en privé.
Un simple dépôt de fichiers FLAC sur le NAS et ils sont instantanément disponible via BubbleUPNP.
N'oubliez pas de faire une petite donation au développeur, si vous voulez...

lundi 1 juin 2020

Full Digital Audio & HIFI Connectée

Une bonne adresse pour discuter Hifi, enceintes connectées, et applications audio : Full Digital Audio & HIFI (FDA support).

lundi 11 mai 2020

Glossaire de l'audio et de la Hifi

Glossaire de l'audio et de la Haute Fidelite

Ce glossaire se destine à clarifier / démystifier la terminologie technique utilisée en audio. Il apporte quelques conseils de mise en oeuvre des technologies Hifi modernes.

AAC (Advanced Audio Coding) : CODEC LOSSY apparu après le Mp3 pro, il est très efficace en taux de compression et en qualité. Considéré transparent à 150kbps. Bande passante illimitée en VBR. Bien supporté, car utilisé par Apple iTune. AAC n'est pas libre de droits bien qu'il existe des implémentations Open source par reverse ingénierie.

Airplay : protocole UPNP de communication/partage de contenu multimédia (audio/video) propriétaire d'Apple : LOSSLESS en général

Amortisseur tellurique : petit pied en "caoutchouc dur" de faible épaisseur (3~4mm) ou en feutrine, il sert à poser une enceinte acoustique sur tout support. Utiliser 3 ou 4 amortisseurs. C'est le meilleur moyen de pose d'enceinte à tous les niveaux : absence de vibrations, absence totale d'impact sur les basses et les aigus.

AptX : CODEC LOSSY propriétaire de CSR, utilisé pour transporter l'audio en Bluetooth. Latence faible, surtout en low latency , identique à SBC en qualité. bitrate ~ 350kbps.

AptXHD : version transparente de AptX, équivalent LOSSLESS, c'est un transport transparent à l'écoute. bitrate ~ 600kbps.

Bass Reflex : utilisation d' un résonateur accordé par un évent afin d aider le haut parleur, de limiter le déplacement de la membrane, d augmenter sa puissance admissible et de renforcer le volume de basses fréquences d'une enceinte acoustique, sur une plage où le rendement du haut-parleur faiblit fortement.

Classe A : modèle de circuit d'étage de puissance analogique d'amplificateur simple à 1 transistor, qui fonctionne en amplification "full onde" : la fonction de transfert est parfaite si on reste dans la zone de fonctionnement linéaire du transistor. L'inconvénient de la classe A est son rendement exécrable (de l'ordre de 25% : 75% de l'énergie est dissipée en chaleur) : ça chauffe autant qu'un grille-pain. La pure classe A, est abandonnée en audio professionnelle est en voie abandon en Hifi, sauf pour les préamplis : la plupart des préamplis analogiques n'utilisant pas d'amplificateurs opérationnels (AOP) fonctionnent en Classe A.

Classe AB : modèle de circuit d'étage de puissance analogique d'amplificateur qui fonctionne en classe A à faible volume et en classe B à fort volume, afin de profiter de la clarté de la classe A et du meilleur rendement de la classe B. Les mesures de taux de distorsion (THD) réalisées à bas régime ne sont donc pas représentatives car la classe de fonctionnement n'est pas la même qu'à haut régime. Néanmoins les amplificateurs de moyenne et haute gamme parviennent à maintenir le THD en dessous de 1% à pleine puissance. Cette technologie était la plus utilisée jusque dans les années 2000, elle est en voie d'abandon par certains constructeurs au profit de la classe D. Le rendement dépend de la puissance mais la dissipation et est de l ordre de 50%.

Classe B : modèle de circuit d'étage de puissance analogique d'amplificateur qui fonctionne au minimum avec 2 transistors : un pour le signal positif et un pour le signal négatif. les deux moitiés d'onde sinusoïdale sont additionné au prix d'une distortion dite de croisement relativement élevée si le circuit est mal conçu. La classe B présente un taux de distorsion plus élevé mais un meilleur rendement que la classe A : c'est son unique intérêt. La pure classe B est abandonnée en audio au profit de AB, G, H ou D.

Classe D : modèle de circuit d'étage de puissance d'amplificateur qui fonctionne en modulation numérique d'impulsions (on appelle ça du numérique "1 bit" : ce type de modulation a la particularité d'être à la fois analogique et numérique, ou du moins : c'est une modulation analogique qui peut être "calculée" directement à partir d'un signal PCM par un microprocesseur) : le passage en signal "purement analogique", réalisé par la self de sortie, ou se fait aux bornes des HP (via l'inductance des HP)... Il existe principalement deux types de fonctionnements classe D : PWM - Pulse Width Modulation, et PDM - Pulse Density Modulation. C'est le circuit le plus utilisé actuellement en Hifi du fait de son rendement et de la distorsion harmonique très faible. Son rendement est de l'ordre de 80% à 90%, il nécessite un dissipateur (radiateur) et une alimentation 4 fois moins importante mais une puce de driver complexe. Selon le driver utilisé : analogique ou numérique : on parle simplement de "classe D" ou de FDA. L'étage de puissance est le même : classe D, pour les deux types précédents.

CODEC : Codeur-Décodeur : algorithme informatique qui converti un signal numérique d'un format d'encodage A vers un format B.

Compression audio (compression dynamique) : traitement du son destiné à réduire la dynamique du signal. C'est un effet audio analogique ou numérique qui réduit plus ou moins (gain) le niveau des parties du signal qui dépassent un seuil en dB (threshold) déterminé par l'utilisateur, pendant une certaine durée (release time). A ne pas confondre avec son homonyme "Compression de données", ci-dessous : ils sont totalement indépendants. Grosso modo on augmente les signaux faibles et on baisse les signaux fort afin d'uniformiser le volume général. Le mastering radio ou publicitaire avec un ressenti loudness très important est connu et utilise une compression importante et multibande du signal.

Compression de données audio (encodage - CODEC) : encodage d'un fichier ou d'un flux audio numérique (MP3, FLAC, SBC, AAC, ...) dans le but de réduire sa taille binaire, en vue d'une transmission (contraintes de débit) ou d'un stockage (contrainte d'espace de stockage).

DAC : convertisseur audio Numérique-Analogique. En 2020 tous les DAC utilisant un circuit intégré récent sont transparents à l'écoute, quelle que soit leur gamme de prix. Leurs performances sont lié au flux d entrée (16 bits/44.1 khz , 24/96, 32/192, 1 bit 5,6mhz(DSD).

Décibel (dB) : unité de valeur du rapport entre deux volumes audio, calculée comme le logarithme décimal du rapport entre deux puissances électriques ou entre deux puissances acoustiques.+3db signifie 2 fois plus de puissance et - 6db à 4x moins.

DLNA (Digital Living Network Alliance) : protocole UPNP de partage audio/video standard et polyvalent permettant de transmettre l'audio en LOSSLESS ou en LOSSY selon le parametrage.

DSD ( Direct Stream Digital) : format d'encodage et de décodage en modulation de densité d'impulsions sur 1 bit à très haute vitesse (2.8 Mhz et ses multiple. Ce format a la particularité d'être à la fois numérique et analogique : numérique car il peut être calculé directement par un DSP, analogique car il suffit d'une self pour le convertir en analogique : il peut être envoyé directement aux HP via un étage de puissance FDA.
Son intérêt est une captation numérique très proche de l'analogique, une dynamique et une vitesse de restitution sans compromis.
L'inconvénient de ce format est son volume de données considérable : fichiers énormes 4x plus gros en Dsd64, par rapport au PCM (CD). A réserver à la captation, au mixage. En diffusion, le gain est minime par rapport au Pcm.

Dynamique : amplitude en dB d'un enregistrement audio entre le plus faible signal (bruit) et le plus fort signal. La "plage" dynamique d'une source audio est sa capacité à reproduire une certaine dynamique issue de l’enregistrement. Le CD lu sur un lecteur moderne dispose d'une dynamique de l'ordre de 120dB. Le phonographe est capable de délivrer 60dB avec un disque neuf, sur les premiers sillons, et environ 40dB en pratique.
Les nouveaux format hi-res (dsd, 24/96) ont des dynamiques énormes de 140 dB que beaucoup d'électroniques sont incapable de suivre (notamment les ampli classe AB de moyenne gamme), et inutiles car le volume sonore nécessaire pour exploiter 140dB de rapport signal/bruit est de l'ordre de 170dB absolus ce qui n'est pas supportable pour un humain (destruction de l'oreille et autres lésions corporelles).

Encodage/décodage LOSSLESS (sans perte) : encodage (CODEC) audio numérique sans perte d'information. La fidélité du signal après encodage / décodage est de 100%.ex Flac.

Encodage/décodage LOSSY (avec pertes) : encodage (CODEC) audio numérique avec perte des informations (psycho-acoustique) non essentielles à la reproduction. La fidélité du signal après encodage / décodage est inférieure à 100%. Un algorithme psycho-acoustique détermine quelles sont les informations qui peuvent être supprimées sans impact sur la restitution du signal audio (signal faible masqué par un signal fort) . Si le débit binaire (bitrate) utilisé est suffisant, et que le modèle psycho-acoustique est performant : la restitution obtenue en LOSSY est dite "transparente".

Expander : traitement du son destiné à augmenter la dynamique du signal. C'est un effet audio analogique ou numérique qui boost plus ou moins (gain) le niveau des parties du signal qui restent inférieures à un seuil en dB (threshold) déterminé par l'utilisateur, pendant une certaine durée (release time). C'est l'anti-électron de la "Compression audio", voir ci-dessus.

Facteur d'amortissement (DF - Damping Factor) : Le facteur d'amortissement représente la faculté de l'ampli à amortir les oscillations de la membrane du HP (l'ampli court-circuite la tension produite par le HP lorsque la membrane revient en position d'équilibre). On dit souvent qu'un bon facteur d'amortissement permet d'obtenir des graves plus nets. Pour faire simple : le facteur d'amortissement se calcule en divisant l’impédance à 1000Hz du HP (R) par celle de l'étage de sortie de l'ampli (r). DF = R/r. Plus il est élevé, plus l'amplificateur tiendra le haut parleur, et plus les pertes de sorties sont faible.

FDA : Full Digital Amplifier. Amplificateur Classe D drivé par un signal PWM (ou PDM), donc sans DAC : le signal numérique d'entrée pilote directement l’étage de puissance classe D via une conversion PCM vers PWM réalisée par un DSP. La classe D est un modèle de circuit d'étage de puissance d'amplificateur qui fonctionne en modulation numérique d'impulsions (on appelle ça du numérique "1 bit" : ce type de modulation a la particularité d'être à la fois analogique et numérique, ou du moins : c'est une modulation analogique qui peut être "calculée" directement à partir d'un signal PCM par un microprocesseur). "FDA" est surtout un terme marketing dont très peu de gens comprennent la signification. Les FDA sont bel et bien des amplis classe D, analogiques pour l'essentiel, qui ont simplement la particularité de replacer l'étage DAC par un traitement DSP et n'acceptent donc que des entrées numériques. Quand un FDA disposent d'entrées analogiques : il intègre un ADC (convertisseur analogique-numérique) en plus du DSP, ce qui dégrade en général ses performances.

FLAC : CODEC LOSSLESS open-source de Xiph.org. C'est le standard de facto pour l'archivage audio. On peut réencoder 100x de suite un fichier WAV en FLAC : le résultat est toujours identique au fichier FLAC d'origine. C est l équivalent du zip pour l informatique.

Headroom : valeur absolue de l'écart en dB entre la plus haute crête de signal d'un enregistrement et le 0dB. Un enregistrement mastérisé pour l'écoute doit normalement être "normalisé" et donc avoir un headroom de 1dB ou nul. Le headroom n'est utile qu'en phase de pré-mastering. Sur un enregistrement normalisé à -1dB : la plus haute impulsion musicale de l'enregistrement atteint -1dB. Son headroom est de 1dB.

HIRES : terme inventé par le marketing de l'industrie audio pour vendre une deuxième fois des albums à ceux qui les ont déjà acheté en CD : des fichiers 24 bits à fréquence d'échantillonage supérieure ou égale à 96KHz. Les fichiers HIRES disposent donc en standard de 140dB de dynamique et jusqu'à 192KHz de bande passante :
-> 140dB de rapport signal/bruit (les 100dB du CD étant déjà très largement surdimensionné pour la restitution audio haute fidélité. De plus les 140dB de dynaique sont inutiles car le volume sonore nécessaire pour exploiter 140dB de rapport signal/bruit est de l'ordre de 170dB absolus ce qui n'est pas supportable pour un humain : destruction totale de l'oreille et autres lésions corporelles )
-> Bande passante allant de 48KHz à 192KHz (au dessus de 12KHz il y a du souffle et le scintillement de certaines percutions, au dessus de 16KHz : il n'y a plus rien à entendre, au dessus de 25KHz : il y a du bruit ultra-son HF indésirable perturbant le fonctionnement des électroniques). Les formats HIRES sont inférieurs au format CD pour l'écoute, donc à éviter (Par exemple, selon Xiph.org : "Les fichiers musicaux numériques à 192 kHz n'offrent aucun avantage. Ils ne sont pas tout à fait neutres non plus; la fidélité pratique est légèrement moins bonne que le CD. Les ultrasons sont un handicap lors de la lecture.)". En effet les ultra-sons sont non-seulement inaudibles, mais provoquent des intermodulations dans l'électronique : ils sont donc néfastes en reproduction audio. Les fichiers 24bits ne servent qu'en studio pour avoir un format sans pertes au dessus du format de diffusion et pour le traitement DSP.

Intermodulation acoustique : perturbation mutuelle de deux ondes acoustiques déphasées ou simplement simultanées.

Intermodulation électronique : perturbation mutuelle de deux signaux audio analogiques dans un circuit de traitement du signal, tel un amplificateur analogique.

Liaison symétrique : liaison audio analogique pour les signaux de niveau ligne ou microphone utilisant une masse flottante et deux conducteurs. Ce type de liaison est très résistante aux perturbations électromagnétiques et donc utilisée pour les longs raccordement professionnels( 10m entre la captation et le mixage est courant) . Elle nécessite des transformateur symétriseurs à chaque extrémité de la liaison. L’intérêt est limité en audio domestique.

Loudness Unit (LU) : mesure de la plage dynamique d'un enregistrement. L'unité LU correspond à 1 dB de dynamique. Le calcul du LU d'un enregistrement correspond au rapport entre la section non silencieuse la plus forte et la section non silencieuse la plus faible, après élimination de 10% des échantillons les plus forts et les plus faibles.

MP3 (Mpeg 2 layer 3 du Frauhofer) : CODEC LOSSY transparent à partir de ~ 192kbps VBR. à 256kbps VBR : bande passante illimitée. C'est un très bon format de compression en termes de qualité, mais pas en taux de compression. MP3 est libre de droits depuis 2017 et supporté par tous les lecteurs ... sauf certains matériels orientés LOSSLESS.

Multiroom audio : couplage Wireless de plusieurs enceintes en réplication de contenu et synchronisation de latence. Possible en Wifi ou en Bluetooth selon les constructeurs.

NAS (Network Attached Storage) : serveur de stockage réseau. Les protocoles possibles pour accéder aux fichiers sont variés : SFTP, SMB, DLNA, ... le support d'un ou plusieurs de ces protocoles dépends du modèle de NAS.

Normalisation (Gac) : réduction ou élargissement du headroom (voir headroom ci-dessus). La normalisation est l'adaptation globale du volume d'un enregistrement pilotée par la détection de la crête de signal.

OGG : CODEC LOSSY plus efficace en compression que MP3, Transparent à partir de 160kbps. OGG est toujours VBR (bitrate variable, pas de OGG CBR). Très bien supporté mais pas aussi bien que MP3. Bande passante limitée à 20KHz. OGG est open source.

OPUS : CODEC LOSSY : le champion du monde du taux de compression : transparent à l'écoute à 130kbps. Un fichier FLAC de 30Mo est transcodé en un OPUS de 3Mo sans perte de qualité d'écoute ou presque. Limité en bande passante autour de 20KHz. Open source.

PCM (Pulse Code Modulation) : signal numérique non compressé qui a une profondeur en bit (précision) et une vitesse d'acquisition en Khz. Ex 16 bits (+-32768 niveaux) et 44.1 Khz(Cd), qui permet de restituer un signal de 0 à 22 Khz, soit les capacités de l'oreille humaine en théorie. En pratique c'est largement suffisant, mais la qualité dépend de la source, la prise de son, la dynamique,... En studio, afin de limiter les pertes de traitements , le 24/96 est le standard minimum utilisé actuellement.

Phonographe : synonyme de "tourne-disque". appareil de lecture de disques en plastique (vinyl) par raclage d'un micro-sillon via une pointe en diamant reliée mécaniquement à un transducteur magnétique. Sa mise en oeuvre mécanique est complexe (rumble,resonnances), le signal est très faible et nécessite un préampli Riaa spécifique pour fonctionner correctement. Ce système électromécanique présente des limitations considérables sur le plan de la qualité audio : rapport signal/bruit inférieur à 60dB, taux de distorsion de l'ordre de 10% sur les sillons centraux, bande passante faible avec mise en avant des bas mediums, grande quantité de bruit HF jusqu'à 50KHz, artefacts sonores, usure rapide du support. N'étant pas en mesure de reproduire les silences de la musique : le phonographe n'est plus classé parmi les sources dites "Haute Fidélité" depuis 40 ans.

Pointes de couplage : pointes métalliques supports d'enceintes permettant de créer un contact mécanique ponctuel. La pression mécanique résultant de la masse de l'enceinte est démultipliée par la diminution de la surface de contact, ce qui permet un "contact sec" avec transmission de l'énergie vibratoire au plancher sans aucune vibration. Les pointes de couplage doivent toujours être utilisées par 3, jamais et en aucun cas par 4, pour que le contact soit iso-statique. Ce type de support d'enceinte n'est utilisable que sur plancher totalement inerte : béton, marbre, carrelage. Proscrire absolument l'utilisation de pointes de couplage sur tout autre type de support (plancher bois, meuble, moquette, ...).

Pointes de découplage : terme utilisé à tort pour désigner les "pointes de couplage".

Radiateur passif : utilisation de la mise en résonance d'une membrane HP dépourvue de moteur afin de renforcer le volume de basses fréquences d'une enceinte acoustique, sur une plage où le rendement du HP faiblit fortement. Son fonctionnement est similaire au bass reflex mais coûte plus qu un simple event. Son avantage est une meilleur qualité du grave par rapport au basse reflex.

RCA (connexion asymétrique) : connecteur utilisé depuis la préhistoire pour transporter les signaux audio analogiques de niveau ligne en audio domestique. Utilisé aussi comme connecteur SPDIF coaxial ou en vidéo composite.

RIP : Opération consistant à extraire les fichiers WAV (Pcm) stockés sur un CD.Aussi utilisé pour extraire les fichier audio et vidéo d un Dvd ou Blu-ray à l identique.

Rodage : période initiale de stabilisation des composants acoustiques et électroniques d'un système audio. Ce principe est hérité de l'âge des amplificateurs à tubes et des premiers haut-parleurs utilisant des matériaux peu élastiques. L'application du rodage à l'électronique est désormais légende urbaine.
Aucun système de haut-parleur sérieux n'est désormais commercialisé sans qu'une période de test en usine ne lui ait fait atteindre une stabilité durable de ses caractéristiques. En audio, le concept de rodage est donc, au pire, une simple désinformation marketing permettant de laisser du temps à l'utilisateur pour qu'il s'habitue à une sonorité qui ne lui plait pas initialement, et qu'il finisse par l’apprécier. Seule exception : les membranes multiplis et à compression pour lesquelles quelques heures de rodage sont nécessaire en utilisation normale sans CD spéciaux. La puissance de départ n'a pas besoin d'être minimale.

SBC : CODEC LOSSY utilisé par défaut par le standard BLUETOOTH pour le transport audio. La qualité de SBC standard est équivalente à MP3 192, c'est à dire "presque transparent" à l'écoute. Bitrate ~ 300kbps.

SBC XQ : version transparente de SBC, équivalent LOSSLESS, c'est un transport transparent à l'écoute. bitrate ~ 600kbps.

Scène sonore : appréciation subjective de l'amplitude spatiale et du réalisme de la reproduction. Ce concept intègre en vrac : largeur stéréo, précision positionnelle des registres, maîtrise des intermodulations acoustiques, clarté et précision des registres, ... En général seule la restitution stéréo permet de produire une scène sonore de haute qualité. Néanmoins la scène sonore peut être satisfaisante en mono via une diffusion à 360° dans un local adapté. De même la scène sonore peut être pauvre en stéréo si le positionnement des enceintes n'est pas correct.

Sensibilité (en db pour 1w/1m) : mesure du rendement global d'un haut parleur en mesurant le volume acoustique produit par un signal sinusoïdal de 1w et souvent de fréquence 1000Hz, mesuré à 1 mètre dans l'axe du haut-parleur. Les haut-parleur de grand diamètre ou de grand débattement ont une sensibilité moyenne plus élevée et réclament donc moins d'énergie pour produire un certain niveau de volume sonore. Le rendement dépend de la fréquence restituée vis à vis du carré de la surface la membrane. Le pavillon permet de concentrer cette puissance et donc d augmenter encore le rendement. Du point de vue du rendement, le haut parleur est le maillon faible en hifi : effectivement, avec 5% de rendement maximum, 95% de pertes sont dissipées en chaleur dans la bobine. Exemple : pour produire une pression sonore(volume) de 100dB Spl à 3m, 100w sera nécessaire une enceinte de 90dB, et seulement 15w pour une de 98 dB…

SNR : Rapport signal/bruit ou "Plage dynamique" : rapport (logarithmique) entre le niveau du plus haut signal musical reproductible et le niveau de bruit (bruit numérique dans le cas du CD, et autres formats numériques). La dynamique des CDs modernes est de l'ordre de 100 dB. Notons au passage, qu'en l'absence de bruit numérique : la dynamique d'un CD est infinie !! La dynamique du tourne-disque est de 60dB quand le disque est neuf, ensuite elle chute rapidement en dessous de 40dB quand le bruit augmente avec l'usure.

Subwoofer : Enceinte dédiée aux fréquences graves. Le plus souvent utilisée en voie centrale mono compte tenu de l'absence de directivité des fréquences basses dans un local de moins de 100m2.

SPL (niveau en db) Sound Pressure Level : Niveau acoustique (volume sonore) a un point d écoute donné : ex 85 dB Spl. Il peut être aussi allié à une fréquence et une distance…Pour un niveau globale on utilise logA ou logB afin de faire une moyenne correspondant à la sensibilité perçue de l oreille.

Stéréo (effet stéréophonique) : littéralement : "son concret" (étymologiquement "stéréo" signifie "dur", "concret"). Restitution audio permettant d’obtenir une sensation d'écoute en plusieurs dimensions spatiales proche de celle d'un environnement live. La diffusion stéréophonique s'appuie sur un ou plusieurs haut-parleurs. La technique majoritairement utilisée repose sur 2 HP disposés pour une diffusion focale ou radiale (voir ci-dessous). Un seul HP peut être utilisé s'il est mis en oeuvre de façon adéquate (HP omnidirectionnels). Les systèmes Home Cinéma utilisent couramment plus de 2 HP : diffusion 5.1, 7.1 (voir ci-dessous).
" La technique stéréophonique consiste moins à établir une écoute droite-gauche qu’à recréer la présence par le relief sonore intégral, à aérer la production du son " - Samuel, Art mus. contemp., 1962, page 634).

Stéréo en diffusion focale : effet stéréophonique "traditionnel" utilisant 2 haut-parleurs en général espacés de 3 à 5m, placés à 30cm d'un mur, et dirigés vers un point focal d'écoute. L'avantage de ce mode de diffusion est une scène sonore naturellement large, profonde et détaillée, à condition de se positionner statiquement au point focal d'écoute (la stéréo sera décentrée partout ailleurs dans la pièce d'écoute).

Stéréo en diffusion radiale : effet stéréophonique utilisant 2 haut-parleurs disposés en un point central de diffusion, à environ 30cm d'un mur, et irradiant la pièce d'écoute selon un angle plus ou moins important des 2 HP. L'effet stéréophonique maximal est obtenu avec une orientation à 180° des 2 HP. L'avantage de ce mode de diffusion est une scène sonore moyennement large et détaillée à condition de se positionner statiquement dans l'axe médian des 2 HP, et un effet stéréophonique néanmoins satisfaisant dans toute la pièce. La stéréo radiale utilise les réflexions directes sur les murs du local d'écoute pour enrichir la scène stéréophonique. Elle présente peu d'intermodulations acoustiques directes.

Stéréo en diffusion omnidirectionnelle : effet "stéréophonique" utilisant 1 haut-parleur disposé selon un axe vertical face à un cone de diffusion permettant de répartir les ondes sonores à 360°. Les avantages de ce mode de diffusion sont une scène sonore spatiale dans toute la pièce, une absence presque totale d'intermodulations acoustiques directes, ainsi que très peu de problèmes de phase (1 seul HP). La stéréo omnidirectionnelle utilise les réflexions directes sur les murs du local d'écoute pour enrichir la scène stéréophonique.

Stéréo en diffusion X.1 (2.1 , 5.1 , 7.1) : effet stéréophonique utilisant plus de deux HP / voies. Chaque voie est matérialisée par une ou plusieurs enceintes spécifiques. Le chiffre X de X.1 correspond aux X enceintes pleine bande qui sont souvent désignées dans le domaine du home cinema par le terme « satellite » et, dans ce cas, sont généralement de petite taille. Seul le haut-parleur grave (subwoofer) destiné à reproduire le canal LFE (Low Frequencies Effect) qui correspond au .1 de X.1, a une taille plus importante.

Sweet spot : point d'écoute idéal pour la diffusion stéréophonique. situé au point focal des axes de diffusion des hauts parleurs. En stéréo radiale le sweet spot se situe dans l'axe median de diffusion des HP, à une distance dépendant de la taille du local et de l'orientation des HP.

Transducteur : terme désignant un haut-parleur pour avoir l'air savant.

Tweeter : haut parleur dédié aux fréquences aiguës.

UPNP : c'est le standard Webservice "Universal Plug and Play" : ça peut TOUT faire, y compris configurer des adresses IP sur n'importe quel objet connecté : très polyvalent, d'ou son nom. En audio : UPNP est la base technologique sur laquelle reposent les différents protocoles de partage multimedia (DLNA, Chromecast, Airplay, ...).

XLR : connecteur professionnel à forte résistance aux connexions/déconnexions utilisé pour les liaisons symétriques de niveau ligne et micro en 3 broches. Il a longtemps été utilisé pour le raccordement d'enceintes de sonorisation pour sa robustesse mais en voie d'abandon pour cet usage au profit du Speakon.En 5 broches, il a des utilisations diverses de controle, de liaison numérique série notamment Dmx en lumière.

Auteurs :

- Jean-Philippe Guillemin

- Christophe Braux

samedi 28 décembre 2019

Protocoles Hifi connectée

Quelques définitions pour mieux comprendre les protocoles utilisés en Hifi connectée :

UPNP = c'est le standard Webservice "Universal Plug and Play" : ça peut TOUT faire, y compris configurer des adresses IP sur n'importe quel objet connecté : très polyvalent, d'ou son nom.

DLNA = c'est un dialecte UPNP parmis des milliers. DLNA est spécialisé dans le partage de contenus multimédias (Chromecast est une déclinaison de DLNA, et la plupart des serveurs de contenu utilisent DLNA)

AIRPLAY =  c'est le dialecte UPNP de Apple pour le partage de contenus multimedia
https://people.via.ecp.fr/~truent/UPnP/index.html

Le principe de base commun de ces dialectes webservices repose sur 3 composants :
- le fournisseur (par exemple : serveur de partage DLNA)

- le consommateur (ou "renderer", par exemple : enceinte connectée)

- le controleur (ou "client", par exemple : logiciel lecteur, comme Hificast) 

3 exemples :

1) Quand on lance la lecture sur Hificast, ce dernier envoi une commande au consommateur (enceinte connectée par exemple) pour qu'elle se connecte au fournisseur. Le fournisseur pouvant être soit un serveur DLNA connecté sur le réseau Wifi, soit la tablette hébergeant Hificast elle même (selon la source sélectionnée dans Hificast).

2) Quand on lance la lecture sur l'application Spotify en mode "Spotify Connect" : l'appli Spotify envoi une commande au consommateur (enceinte connectée compatible Spotify Connect par exemple) pour qu'elle se connecte sur le serveur de Spotify situé sur Internet et lance la lecture

3) Quand on lance la lecture sur l'application Spotify en mode "Chromecast" : l'appli Spotify envoi une commande DLNA au consommateur (enceinte connectée par exemple) pour qu'elle se connecte à la tablette hébergeant l'appli Spotify, et c'est l'appli Spotify qui se connecte elle même au serveur de Spotify situé sur Internet (ce mode est meilleur que Spotify Connect).