samedi 7 novembre 2020

LOSSY versus LOSSLESS : test à l'aveugle

Traduction en français de l'article de Gabriel Chacón Ruiz, disponible sur cdvsmp3.wordpress.com


La taille du fichier d'une chanson iTunes ne représente qu'une fraction de son homologue CD car elle a été compressée en supprimant des données dans le processus. La qualité audio est-elle dégradée? Il y a plus d'un an, j'ai conçu un test pour voir si nous pouvons entendre des différences entre la version originale et la version compressée. Voici les conclusions après avoir analysé les données de plus de 500 candidats au test.

Cet article porte sur les résultats empiriques. Je les présenterai dans un instant, mais permettez-moi d'abord de reconstruire le contexte dans lequel elles ont été obtenues afin de les interpréter correctement.

Assurons-nous que nous comprenons tous les mots «avec perte» et «sans perte» dans le contexte de l'audio en premier lieu. Supposons qu'un CD est une copie fidèle de la musique enregistrée au studio. Si nous voulons transférer la musique qu'il contient sur un appareil portable comme notre téléphone ou notre lecteur mp3, nous «déchirons» le CD sur notre ordinateur à l'aide d'un logiciel comme iTunes, un exemple populaire. Par défaut, lorsque le contenu du CD est transféré vers votre bibliothèque musicale, iTunes compressera considérablement les fichiers audio à une fraction de sa taille d'origine pour économiser de l'espace de stockage, en supprimant une partie des données d'origine dans le processus. Nous appelons cela une méthode de compression avec perte de codification - ou codec avec perte pour faire court. Si vous souhaitez conserver toutes les données contenues dans le CD, vous pouvez choisir une sans perte codec. FLAC et Apple Lossless sont de bons exemples de ce dernier. Aucune donnée ne sera supprimée dans le processus, mais les fichiers musicaux prendront beaucoup plus d'espace.

Pourquoi un codec avec perte est-il l'option par défaut dans iTunes? Ne sacrifions-nous pas la fidélité pour la commodité? Eh bien, la vérité est que les codecs avec perte sont vraiment intelligents pour décider des données à supprimer. Ils sont basés sur la connaissance de la façon dont nos oreilles et notre cerveau perçoivent ce que nous entendons - la science de la psychoacoustique. Lors de l'utilisation d'un bon codec avec perte comme iTunes plus, les experts sont convaincus que nous ne remarquerons aucune dégradation de la musique. Mais qu'en est-il ?

Au moment où nous lisons «la compression avec perte supprime les données pour réduire la taille du fichier», nous ne pouvons pas nous empêcher de penser que quelque chose de grave se produit. Cependant, la plupart de la musique à laquelle nous avons accès via la diffusion en continu et Internet est compressée à l'aide d'un codec avec perte - iTunes et d'autres services de musique compressent les fichiers à environ 1/6 de leur taille de CD d'origine. C'est une quantité assez importante de données jetées dans le processus. Ne devrions-nous pas être en mesure de détecter la perte? Il semble raisonnable de penser que nous devrions, étant donné le ratio.

Pour résoudre le problème de la compression par rapport à la qualité, j'ai mis en place un test en ligne comparant le CD audio à l'AAC 256k VBR, le codec avec perte de haute qualité utilisé par iTunes. Je voulais offrir aux gens la possibilité de décider eux-mêmes si des données rejetées signifiaient nécessairement une qualité sonore dégradée, et je pouvais également recueillir des informations précieuses qui pourraient révéler des faits intéressants. Une partie de la motivation de ce projet est venue de ce que je considérais comme une critique injustifiée (et pas toujours impartiale) sur la qualité supposée faible des codecs avec perte pour justifier le besoin de solutions comme High Resolution Audio (HRA) ou d'initiatives comme Pono. Beaucoup de leurs enthousiastes se vantent que les disques avec perte et sans perte se comparent à «nuit et jour», et certains vont même jusqu'à considérer le CD audio mal qualifié pour les oreilles audiophiles.

Le test a été disponible en ligne pendant près d'un an et j'ai pu collecter 580 soumissions de résultats auprès d'une population variée de candidats à qui je suis profondément reconnaissant. Ils ont commencé par répondre à une brève enquête sur leur âge, leur sexe, s'ils avaient une formation musicale ou non, la qualité de l'équipement audio qu'ils utiliseraient pour passer le test et leur emplacement. Ensuite, ils sont passés au test à l'aveugle. Ils ont dû choisir un clip musical et écouter une série de 16 essais composés de deux sections, A et B, l'une étant de qualité CD et l'autre, AAC 256k VBR. Dans chaque cas, ils devaient décider si A ou B était de qualité CD. Ils se sont vus offrir une issue au 8e essai s'ils étaient fatigués, mais la plupart des participants sont passés par les seize essais, fournissant des statistiques plus précises.Il existe une version hors ligne du test aveugle disponible sur ce site si vous êtes intéressé à le faire vous-même.

Rencontrez les candidats

C'était agréable de voir que des personnes de tous âges étaient engagées dans le défi, montrant que nous nous soucions de la meilleure expérience possible du plaisir d'écouter la musique que nous aimons.

Capture d'écran 2015-09-08 à 16.29.01

Notre capacité à percevoir les hautes fréquences diminue avec l'âge. J'ai pensé qu'il serait intéressant de voir si les jeunes obtenaient de meilleurs résultats lors du test à l'aveugle. Nous sommes sur le point de le découvrir.

Capture d'écran 2015-09-08 à 16.28.48

On dirait que le problème est principalement masculin.

Capture d'écran 2015-09-08 à 16.29.18

Une formation musicale quelconque pourrait-elle conduire à de meilleures performances?

Capture d'écran 2015-09-08 à 16.29.51

Si les différences de qualité audio des formats devaient être vraiment subtiles comme j'en étais convaincu, non seulement les oreilles de l'auditeur mais aussi l'équipement audio utilisé seraient un facteur clé dans les résultats.

Comme je l'ai dit, j'ai proposé un choix de styles de musique pour rendre le blind test plus engageant: rock, jazz, blues, bande-son, classique… J'étais heureux de voir que les six clips ont finalement été testés, même s'il était assez facile de prédire cela Le n ° 4 serait le plus populaire…

Capture d'écran 2015-09-08 à 16.28.26

Clips musicaux:   # 1   # 2   # 3    # 4   # 5   # 6
(Remarque: il s'agit d'échantillons mp3 de basse qualité à diffusion rapide)

L'un des bons résultats de ce projet a atteint tant de coins du monde. J'ai généré un nuage de mots avec la plupart des emplacements où le test a été effectué (cliquez pour zoomer).

Nuage 1 (5) .pngOK, alors, que dit cet échantillon large et varié de personnes sur notre capacité à distinguer CD et iTunes plus? Comme je l'ai dit plus tôt, les différences audibles entre les deux formats sont si subtiles que nous pouvons affirmer ce qui suit

HYPOTHÈSE NULLE: Les personnes qui ont passé le test n'ont pas fait mieux qu'elles ne le feraient si elles avaient choisi leurs réponses au hasard.

Les données obtenues fournissent-elles suffisamment de preuves pour rejeter cette hypothèse?

Nous procédons comme suit: nous rassemblons tous les scores et comparons leurs fréquences (le nombre de personnes qui ont obtenu ce score dans la catégorie correspondante) avec les fréquences auxquelles on s'attendrait si les gens choisissaient simplement leurs réponses au hasard. Ensuite, nous analysons les écarts par rapport aux résultats attendus à l'aide d'une preuve statistique très courante: le test du chi carré. Ce test nous indique la probabilité d'obtenir une telle distribution si l'hypothèse nulle est vraie (valeur p). Une valeur p inférieure à 0,05 est généralement requise pour rejeter l'hypothèse nulle. Dans notre cas, une valeur p suffisamment faible fournirait des preuves statistiques que les gens pourraient dire quel format ils écoutaient.

Dans les graphiques suivants, des barres vertes indiquent les fréquences obtenues et des barres brunes, les fréquences attendues, pour chaque valeur du score. Il existe deux tableaux dans chaque catégorie, un pour chaque version du test: complet (16 essais) et raccourci (8 essais). La valeur p du test du chi carré est indiquée dans chaque cas.

Capture d'écran 03/02/2016 à 23.32.35.png

Graphique n ° 1: valeur p du test du chi carré: 0,089 (> 0,05)

Capture d'écran 03/02/2016 à 23.35.48.png

Graphique n ° 2: Valeur p du test du chi carré: 0,078 (> 0,05)

Capture d'écran 03/02/2016 à 23.39.46.png

Graphique n ° 3: Valeur p du test du chi carré: 0,74 (>> 0,05)

Capture d'écran 03/02/2016 à 23.42.33.png

Graphique n ° 4: Valeur p du test du chi carré: 0,35 (>> 0,05)

Capture d'écran 03/02/2016 à 23.44.38.png

Graphique n ° 5: Valeur p du test du chi carré: 0,92 (>> 0,05) L'échantillon est petit. Le test du chi carré n'est pas très fiable

Capture d'écran 03/02/2016 à 23.47.51.png

Graphique n ° 6: Valeur p du test du chi carré: 0,040 (<0,05) L'échantillon est trop petit. Le test du chi carré n'est pas fiable.

Capture d'écran 03/02/2016 à 23.30.06.png

Graphique n ° 7: Valeur p du test du chi carré: 0,16 (> 0,05)

 

Capture d'écran 03/02/2016 à 23.56.42.png

Graphique n ° 8: Valeur p du test du chi carré: 0,077 (> 0,05)

Notez que, malgré les écarts, les deux distributions ont des formes de cloche similaires. De plus, toutes les valeurs p fiables sont en faveur de l'hypothèse nulle énoncée, certaines d'entre elles étant fortement concordantes. Ainsi, sur la base des données obtenues, la conclusion la plus raisonnable est que  nous n'entendons pas la différence entre le CD audio et iTunes plusEt cela est vrai dans tous les cas considérés: être jeune, avec notre sens de l'ouïe à son apogée, avoir une formation musicale ou utiliser un excellent équipement audio ne semble pas aider.

Il y a eu des exemples de scores élevés. Des scores de 12/16 ou plus (et dans une moindre mesure 7/8 ou plus) sont un bon début en faveur de votre capacité à discriminer (p <0,05). Mais pour prouver que vous le pouvez, vous devez obtenir des scores élevés à plusieurs reprises  par souci de cohérence. Un participant de Thunder Bay, au Canada, le seul à avoir passé le test trois fois, a obtenu des notes de 12/16, 9/16 et 7/8. La probabilité d'obtenir ce résultat ou mieux par hasard est aussi faible que 8 sur 1000, mais on peut s'attendre à des résultats comme celui-ci dans un échantillon de 580. Quelques autres participants qui ont également obtenu des scores élevés n'ont pas réussi à obtenir de bons résultats lors d'un deuxième essai. , ou tout simplement n'a pas passé le test plus d'une fois.

Enfin, les scores faibles méritent également d'être considérés comme un signe de discrimination, car ils sont aussi rares que les scores élevés. Quiconque obtient des scores égaux ou inférieurs à 4/16 ou 1/8 à plusieurs reprises prouverait qu'il ou elle peut discriminer, mais avec le résultat étrange de considérer le codec avec perte : d'une qualité supérieure à celle du CDDans tous les cas, aucun score faible cohérent n'a été observé dans l'échantillon.

Conclusion

Le codec AAC 256k VBR offre une excellente qualité de compression qui suffira à la plupart d'entre nous. Si vous pensez être un oiseau rare avec des oreilles dorées, testez-vous à l'aveugle pour savoir si vous l'êtes vraiment avant de vous soucier de la qualité des codecs de compression avec perte. Il y a de fortes chances que vous soyez déçu.

Questions et commentaires bienvenus!