96 kHz : de la théorie au master final
96. Deux chiffres qui reviennent dans presque toutes les conversations sérieuses sur l'audio pro, et qui génèrent autant d'enthousiasme que de scepticisme. Marketing ou réalité ? Vraie plus-value ou argument commercial bien rodé ?
La physique, les algorithmes et l'expérience du terrain apportent des réponses beaucoup plus nuancées et intéressantes que le débat habituel ne le laisse croire.
Le 96 kHz est une décision qui touche chaque étape du workflow : la conversion analogique-numérique, le comportement des plugins, la façon dont les transitoires sont capturés, et la manière dont votre master est diffusé sur les plateformes de streaming haute résolution.
Ce que le 96 kHz change réellement dans votre pratique, c'est exactement ce que nous allons explorer ici, avec la physique comme boussole et le terrain comme référence.
Nyquist, anti-aliasing et convertisseurs
Le théorème de Nyquist-Shannon
Pour capturer correctement un signal audio, la fréquence d'échantillonnage doit être au moins deux fois supérieure à la fréquence la plus haute de ce signal. C'est le théorème de Nyquist-Shannon, et tout le reste en découle.
Ce principe définit la fréquence de Nyquist, la limite haute de ce que le système peut reproduire proprement :
44 100 Hz → Nyquist : 22 050 Hz 96 000 Hz → Nyquist : 48 000 Hz
Toute fréquence dépassant cette limite ne disparaît pas discrètement. Elle se replie dans le spectre audible sous forme d'artefacts parasites et inharmoniques. C'est l'aliasing.
Le filtre anti-aliasing
Pour éviter ce repliement, un filtre passe-bas est appliqué avant la conversion, chargé d'éliminer proprement tout ce qui risque de dépasser la fréquence de Nyquist. C'est le filtre anti-aliasing.
À 44 100 Hz, ce filtre doit couper très brutalement juste au-dessus de 20 kHz, pratiquement à la limite du spectre audible. Cette pente abrupte introduit des distorsions de phase et une légère coloration dans les hautes fréquences.
À 96 000 Hz, le filtre dispose de 26 000 Hz de marge avant d'atteindre Nyquist. Il peut travailler progressivement, avec une pente douce. Le spectre audible reste intact, sans compromis.
44.1 kHz → filtre brutal à ~22 kHz → coloration possible dès 18-20 kHz 96 kHz → filtre doux à ~48 kHz → spectre audible préservé intégralement
Les convertisseurs Delta-Sigma et le noise shaping
Les convertisseurs modernes, tels que le Prism Sound ADA-8XR, le Lavry Engineering SAVITR, l'Antelope Pure 2 et le Metric Halo ULN-8 mkIV, utilisent quasi-universellement une architecture Delta-Sigma (ΔΣ). Ils travaillent en interne à des fréquences très élevées, parfois 64x ou 128x la fréquence nominale, avant de redescendre à la fréquence cible. C'est l'oversampling interne.
À cela s'ajoute le noise shaping : la quantification du signal génère inévitablement du bruit. Le noise shaping repousse ce bruit vers les hautes fréquences, loin du spectre audible sensible.
À 96 kHz, le convertisseur dispose d'un espace spectral deux fois plus large pour loger ce bruit repoussé. Le noise shaping peut opérer avec beaucoup plus d'amplitude, laissant le spectre audible plus propre, avec un plancher de bruit plus bas sur les signaux à faible niveau.
C'est d'ailleurs là que naît la confusion entre sample rate et dynamique. L'effet est réel mais indirect : c'est le design du convertisseur combiné au sample rate qui produit ce résultat, pas le sample rate seul.
Le clipping, les harmoniques et l'aliasing
C'est souvent dans la pratique que les choses deviennent vraiment parlantes. Clipper un convertisseur AD à 44.1 kHz ou à 96 kHz, ce n'est pas la même expérience. À 96 kHz, vous pouvez pousser le niveau d'entrée du convertisseur beaucoup plus loin avant que le clipping ne génère des artefacts perceptibles. Ce n'est pas une impression, c'est de la physique.
Quand un signal clippe, il génère des harmoniques, des multiples de la fréquence fondamentale. C'est la nature même de la distorsion :
Fondamentale : 10 kHz Harmoniques : 20 kHz, 30 kHz, 40 kHz, 50 kHz...
À 44.1 kHz, ces harmoniques dépassent très rapidement la fréquence de Nyquist et se replient dans le spectre audible sous forme d'artefacts inharmoniques et dissonants :
30 kHz → alias à ~14 kHz 40 kHz → alias à ~4 kHz 50 kHz → alias à ~5.9 kHz
À 96 kHz, ces mêmes harmoniques disposent d'un espace spectral bien plus généreux avant d'atteindre Nyquist. Le filtre anti-aliasing les contient ou les élimine bien au-dessus du spectre audible :
30 kHz → reste à 30 kHz 40 kHz → reste à 40 kHz 50 kHz → alias à ~46 kHz
Le convertisseur peut être poussé plus loin, avec une saturation qui reste propre, transparente, musicale.
Ce principe est d'ailleurs exactement ce qui justifie l'oversampling dans les plugins de saturation et de limiting. Les développeurs reproduisent artificiellement ce comportement en faisant travailler leurs algorithmes à une fréquence interne plus élevée. En travaillant nativement en 96 kHz, vous bénéficiez de cet avantage directement au niveau du convertisseur.
Micros, préamplis et transparence de la chaîne
Le micro et le préampli opèrent dans le domaine analogique. Ils ne "savent" pas à quelle fréquence d'échantillonnage vous travaillez. Mais le 96 kHz révèle leur qualité avec une fidélité bien supérieure, et c'est là que la discussion devient intéressante.
La bande passante des micros
Certains microphones de haute qualité ont une réponse en fréquence qui s'étend bien au-delà de 20 kHz :
Neumann U87 → capte jusqu'à ~20 kHz Schoeps MK4 → capte jusqu'à ~40 kHz DPA 4006 → capte jusqu'à ~40 kHz
À 44.1 kHz, ces informations au-delà de 20 kHz sont éliminées lors du processus de conversion, par le filtre de décimation interne du convertisseur. À 96 kHz, elles sont préservées intégralement dans l'enregistrement.
La résolution temporelle des transitoires
C'est probablement l'argument le plus concret et le plus immédiatement perceptible. Une caisse claire, une guitare acoustique, une consonne percussive à la voix, tous ces événements génèrent des transitoires ultra-rapides dont l'énergie s'étend très haut en fréquence.
À 96 kHz, la résolution temporelle est deux fois plus fine qu'à 44.1 kHz :
44.1 kHz → 1 échantillon = ~22.6 µs 96 kHz → 1 échantillon = ~10.4 µs
Cette finesse se traduit concrètement par une meilleure restitution de la définition, de l'impact et de l'air sur les sources acoustiques. Ce que beaucoup d'ingénieurs du son perçoivent intuitivement à l'écoute trouve ici son explication physique.
Le convertisseur comme maillon révélateur
Travailler en 96 kHz avec un convertisseur de qualité, c'est s'assurer que la qualité réelle de chaque micro et de chaque préampli de la chaîne arrive dans le domaine numérique sans compromis. Chaque nuance, chaque caractère, chaque détail du signal analogique est capturé avec une précision maximale.
C'est d'ailleurs un point important : la qualité du convertisseur reste le maillon décisif de cette chaîne. Un excellent micro et un excellent préampli méritent un convertisseur à leur hauteur. Un convertisseur de qualité adapté boucle la chaîne de façon cohérente.
Les plugins, l'oversampling et l'EQ à phase linéaire
L'aliasing dans les plugins
Les plugins qui génèrent de la distorsion harmonique, saturateurs, compresseurs à comportement non-linéaire, limiteurs, génèrent des harmoniques qui obéissent aux mêmes lois physiques que celles d'un convertisseur AD. La différence, c'est que ce phénomène se produit cette fois entièrement dans le domaine numérique, à l'intérieur même du plugin.
L'oversampling
La réponse des développeurs à ce problème, c'est l'oversampling. Le plugin traite le signal en interne à une fréquence bien supérieure à celle de la session, 2x, 4x, 8x, parfois 16x, avant de redescendre à la fréquence native. Les harmoniques indésirables sont ainsi générées dans un espace spectral suffisamment large pour être filtrées proprement avant de revenir dans le spectre de la session.
Ce mécanisme est exactement le même que celui des convertisseurs Delta-Sigma. La différence est qu'ici ce mécanisme est reproduit par le code du plugin, et qu'il a un coût en charge CPU.
En travaillant nativement en 96 kHz, vous réduisez mécaniquement ce problème dès la source. Un plugin tournant à 96 kHz sans oversampling activé se comporte souvent mieux qu'un plugin tournant à 44.1 kHz avec oversampling 2x. Et pour les plugins qui supportent l'oversampling, l'activer à 96 kHz repousse les artefacts encore plus loin dans le spectre.
L'EQ à phase linéaire
L'égalisation à phase linéaire est un outil particulièrement sensible au sample rate. Un EQ à phase linéaire traite le signal de façon symétrique dans le temps, ce qui génère un pre-ringing : une impulsion audible en amont de chaque transitoire. Cette impulsion est directement influencée par la résolution temporelle de la session.
À 44.1 kHz, elle est plus longue et plus perceptible, elle peut "brouiller" les attaques et réduire la lisibilité du mix.
À 96 kHz, la résolution temporelle plus fine réduit considérablement sa durée :
44.1 kHz → pre-ringing plus long → attaques moins précises 96 kHz → pre-ringing plus court → attaques préservées
C'est particulièrement notable sur les sources percussives et sur les basses fréquences, là où l'EQ à phase linéaire est le plus sollicité en mastering. La précision des courbes est également meilleure : à 96 kHz, l'EQ dispose de deux fois plus de points de calcul sur le spectre, ce qui se traduit par des corrections plus fines et plus naturelles.
La SRC, une étape décisive
Le 96 kHz est une réalité de session. Mais la fréquence d'échantillonnage de la session ne correspond pas toujours aux spécifications de livraison. Les plateformes de streaming, qui représentent aujourd'hui la majorité de la distribution, acceptent des fichiers de 44.1 kHz à 96 kHz, le format CD est limité à 44.1 kHz par la norme Red Book, et la plupart des diffuseurs broadcast travaillent à 48 kHz. Le SRC, ou conversion de la fréquence d'échantillonnage, est donc une étape inévitable dans la grande majorité des workflows.
Le ratio 96 → 44.1 kHz
La conversion de 96 kHz vers 44.1 kHz est l'une des plus complexes qui soit. Le ratio entre les deux fréquences est irrationnel :
96 000 / 44 100 = 2.176870...
Pour calculer ce ratio exact, l'algorithme doit travailler sur un nombre d'échantillons considérable avant de trouver un cycle entier. Plus ce cycle est long, plus le calcul est précis, et plus la qualité de la conversion est élevée. C'est pourquoi la qualité de l'algorithme SRC est absolument déterminante sur ce ratio précis.
Un algorithme SRC de mauvaise qualité sur ce ratio introduit des artefacts subtils mais audibles : une perte de définition dans les hautes fréquences, et parfois une coloration du bas du spectre.
Le ratio 96 → 48 kHz
À l'inverse, la conversion de 96 kHz vers 48 kHz repose sur un ratio entier parfait :
96 000 / 48 000 = 2.000000
L'algorithme retire simplement un échantillon sur deux. Aucune interpolation nécessaire, aucun artefact possible. C'est la conversion la plus propre et la plus transparente qui existe.
Pour les projets destinés au broadcast ou aux livrables 48 kHz, travailler nativement en 96 kHz offre donc un avantage considérable : une conversion de la fréquence d'échantillonnage sans aucun compromis.
L'ordre des opérations
Un point souvent négligé mais fondamental : dans une chaîne de mastering, le SRC doit toujours intervenir avant le dithering, et jamais après.
Le dithering est un bruit de faible amplitude ajouté au signal pour masquer les artefacts de quantification lors d'une réduction de la profondeur de bit. Si le SRC intervient après le dithering, il traite ce bruit comme du signal et le redistribue de façon imprévisible dans le spectre. Le résultat est un dithering inefficace et potentiellement dégradant.
Ordre correct : SRC → Dithering → fichier final Ordre incorrect : Dithering → SRC → fichier final
Hi-Res streaming, FLAC et ALAC
Le paysage du streaming haute résolution
Les plateformes de streaming haute résolution se sont considérablement développées ces dernières années. Tidal, Qobuz, Apple Music et Amazon Music HD proposent aujourd'hui des contenus en 24-bit / 96 kHz, voire 24-bit / 192 kHz pour certains catalogues. C'est une évolution qui concerne directement les ingénieurs du son, et qui change concrètement la donne pour la livraison des masters.
Un master livré en 96 kHz peut aujourd'hui atteindre l'auditeur final dans sa résolution native, sans aucune dégradation liée à une conversion de fréquence d'échantillonnage. C'est une continuité de chaîne qui n'existait pas auparavant.
FLAC et ALAC, comment ça fonctionne
Le FLAC (Free Lossless Audio Codec) et l'ALAC (Apple Lossless Audio Codec) sont deux formats de compression audio sans perte. Contrairement au MP3 ou à l'AAC, ils ne sacrifient aucune information audio. Le fichier décompressé est rigoureusement identique au fichier source, échantillon pour échantillon.
Leur fonctionnement repose sur deux mécanismes complémentaires. Le premier est la prédiction linéaire (LPC) : l'algorithme analyse les régularités du signal audio et prédit les échantillons suivants à partir des précédents. Seule la différence entre la prédiction et le signal réel est stockée, ce qui réduit considérablement la quantité de données à encoder.
Le second est le codage de Rice : ces résidus de prédiction sont ensuite compressés avec un algorithme mathématique optimisé pour les distributions de valeurs typiques d'un signal audio. Le résultat est un fichier dont la taille est réduite de 40 à 60% par rapport au fichier WAV original, sans aucune perte d'information.
WAV 24-bit / 96 kHz → ~90 Mo pour 5 minutes FLAC 24-bit / 96 kHz → ~40 Mo pour 5 minutes
De la session à l'auditeur
C'est peut-être l'argument le plus fort en faveur du 96 kHz aujourd'hui. La chaîne complète existe désormais, de bout en bout :
Session 96 kHz → Master 24-bit / 96 kHz → FLAC / ALAC → Plateforme hi-res → DAC de l'auditeur
Un auditeur équipé d'un bon DAC et d'un système d'écoute de qualité reçoit exactement ce que l'ingénieur du son a capturé et façonné en studio. Chaque décision prise à la source, le choix du micro, du préampli, du convertisseur, du sample rate, se retrouve intégralement dans l'expérience d'écoute finale.
C'est une opportunité concrète pour les ingénieurs du son : celle de livrer un travail sans compromis, de la prise jusqu'au système d'écoute de l'auditeur.
Julien Courtois