Accueil actualités Compression du son
Agenda des évènements
Prochain rendez-vous :
Agenda :
Avril
2024
  • LUN
  • MAR
  • MER
  • JEU
  • VEN
  • SAM
  • DIM
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  •  
  •  
  •  
  •  
  •  
 
Contact
Pour toutes vos questions, contactez-nous :
Contact
Par téléphone :
Par courrier :
21, rue Ronsard
91470 Limours
Par mail :
Contact pour adhésion et assurance :
Par formulaire de contact :
En cliquant ICI ou sur l'oreille !
Partenaires

Associations :

Fabriquants :

La compression de dynamique d'intensité en audition,

avantages, limites et dangers physiologiques potentiels

 

   

Pr. Paul Avan, directeur du Centre de Recherche et d'Innovation en Audiologie Humaine (CeRIAH), Institut de l'Audition, Institut Pasteur, Paris

Avec la collaboration de Thamara Dos Santos (UFMG, Belo Horizonte, Brésil), Pierrick Bordiga (MEEI, Boston, USA), Christian Hugonnet (Semaine du Son, Paris)

 

 

Introduction: la dynamique d'intensité et la perception

  Nos organes sensoriels détectent les stimulations physiques du monde extérieur selon différentes modalités, notamment l'audition et la vision. Entre la plus petite intensité détectable, qui constitue notre seuil de perception, et la plus forte intensité tolérable sans douleur ni risque d'endommager l'organe détecteur, s'échelonnent un grand nombre d'ordres de grandeur. En vision, pour la gamme de longueur d'ondes à laquelle notre rétine est sensible, on trouve un facteur multiplicatif d'environ mille milliards (10 à la puissance 12) entre les plus faibles luminances détectables et les plus intenses tolérables, entre une lueur à peine visible dans l'obscurité totale et les plus fortes luminances associées au plein soleil dans un champ enneigé. En audition, l'échelle d'intensités est du même ordre lorsqu'on utilise comme mesure d'intensité la puissance acoustique d'un son, en Watt par m2 par exemple : 10-12 Watt / m2 au seuil auditif pour les fréquences auxquelles l'être humain est le plus sensible, entre 1000 et 4000 Hz (soit, les fréquences médium aigues), et 1 Watt/m2 au seuil de douleur. On n'est pas loin de ce dernier dans un concert de musique amplifiée si on se place trop près des haut-parleurs… L'échelle en décibels, chère aux ingénieurs mais précieuse aussi pour les législateurs, lorsqu'ils rédigent des textes basés sur les normes d'exposition, est construite en prenant l'exposant (en puissance de 10) du rapport entre la puissance acoustique du stimulus mesuré et celle du seuil de détection moyen normal, puis en multipliant cet exposant par 10 (d'où le préfixe déci dans décibel. Bel est en hommage à Graham Bell, l'inventeur du téléphone) : ainsi, un son de 60 décibels à 1000 Hz représente une puissance acoustique de 106 fois celle du seuil auditif, soit 10-6 Watt/m2 : très simple une fois qu'on a pris l'habitude.

 

Les compressions naturelles d'intensité

  Les récepteurs auditifs encodent ensuite le son qu'ils ont détecté à destination des neurones auditifs. Ceci se fait d'abord par le changement du potentiel électrique de membrane des cellules sensorielles. La taille de ce changement est proportionnelle à l'intensité du son. Puis les neurones connectés aux cellules émettent des décharges électriques dites potentiels d'action (PA pour la suite), mais un PA est une impulsion électrique de taille fixe. Pour coder l'intensité du stimulus, le neurone ajuste sa cadence de PA : un stimulus juste détectable donne lieu à une cadence très faible, puis la cadence augmente en relation avec l'augmentation d'intensité. Mais cette augmentation n'est pas infinie : un neurone ne peut pas décharger à plus que quelques centaines de PA par seconde, pour des raisons électrochimiques. Après avoir donné un PA, il a besoin de quelques millisecondes pour que ses pompes transmembranaires rétablissent son équilibre chimique que l'émission du PA a modifié. Entre l'intensité de stimulation qui déclenche une réponse neuronale au-dessus du seuil de détection et celle qui amène le neurone à son taux maximum de PA par seconde, il y a un intervalle d'environ 30 décibels. Au-dessus de son taux maximum de PA, le neurone est dit "saturé" et ne peut alors plus coder d'augmentation d'intensité. Cette limitation, universelle dans toutes les espèces animales dotées de neurones, est contournée par l'existence d'une compression en amont de l'activation neuronale. Bien utilisée, la compression procure de remarquables avantages en termes de capacité à répondre à des stimuli très variés. Comment est-elle mise en œuvre?

Pour l'audition, il existe un étage de traitement intermédiaire entre le son extérieur et les cellules sensorielles qui excitent directement les neurones auditifs. Cet étage est exercé par les cellules dites ciliées externes (CCE en abrégé) qui ont pour tâche d'amplifier les vibrations sonores. L'amplification est de 60 décibels pour les sons très faibles, et elle se réduit très progressivement pour devenir pratiquement nulle à 90 décibels. Si à zéro décibel le son extérieur est considérablement amplifié et qu'à 90 décibels il n'est plus amplifié, le résultat est que la réponse cochléaire à l'endroit qui code pour ce son varie de 30 décibels pour 90 décibels de variation effective du stimulus. Autrement dit, les CCE appliquent une compression d'un tiers de décibel par décibel de croissance du son incident. Ceci permet aux neurones connectés à l'endroit considéré de coder sans saturation les sons allant du seuil de détection à un niveau déjà très considérable. Le problème de cette solution est que les CCE sont fragiles, souvent les premières lésées en cas de surdité neurosensorielle.

A gauche, on voit qu'en l'absence de toute compression de dynamique d'intensité, la dynamique des sons naturels, même légèrement réduite si on ne considère que la parole, est plus grande que celle des neurones, qui au maximum de leur dynamique, sont saturés. Au milieu, la compression naturelle introduite par la cochlée réduit l'amplitude de la dynamique que les neurones doivent encoder et la rend compatible avec les performances neuronales. Si la cochlée perd sa compression physiologique, celle-ci peut être remplacée par celle d'audioprothèses ou d'implants cochléaires. La surcompression électronique utilisée pour la musique, elle, ne vise pas à respecter la dynamique naturelle en la réduisant, mais à faire passer la dynamique de la musique au-dessus de tout bruit interférant. Le résultat fait fonctionner les neurones systématiquement au maximum de leurs possibilités, sans aucune pause réparatrice.

 

La compression en cas de surdité neurosensorielle

  Dans ces cas fréquents de perte du mécanisme naturel de compression, les sujets atteints se plaignent de deux handicaps concomitants. Le premier est une diminution de leur capacité à détecter des sons de faible niveau, car les CCE ne les amplifient plus. Le deuxième est qu'une fois les sons entendus, l'écart d'intensité entre leur détection et leur ressenti comme très intense est pincé. Cette réduction du contraste entre sons faibles et forts est ressentie comme inconfortable. La solution qu'applique l'audioprothésiste est de rétablir l'audibilité des sons faibles de manière prudente, assortie de l'instauration d'une compression numérique qui se substitue à celle désormais disparue des CCE. La compression numérique de dynamique d'intensité est donc une obligation pour réhabiliter ce type de surdité très fréquente.

Dans une situation plus extrême, avec une atteinte pathologique plus extrême, les cellules sensorielles cochléaires ne fonctionnent plus, ni les CCE ni les autres cellules, et on recourt à l'implant cochléaire qui stimule directement le nerf auditif. Cette stimulation possède une marge étroite, en termes d'intensité de courant électrique qui permet à une électrode d'induire des PA dans les neurones auditifs situés dans la zone qu'elle est capable d'exciter directement. La différence en décibels entre la plus faible stimulation électrique détectable et la plus forte avant saturation des neurones répondeurs est d'une dizaine de décibels, typiquement. Pour pouvoir coder un son naturel de dynamique 120 décibels, il va falloir un traitement de signal très énergiquement compressif en dynamique d'intensité pour convertir le son extérieur en une stimulation électrique neuronale qui véhicule toutes les nuances de l'information. Les différents principes de réglages, aussi bien d'une audioprothèse conventionnelle que d'un processeur d'implant cochléaire, jouent finement avec la compression en choisissant de privilégier différents intervalles, et on choisit en général ceux de la parole à niveau habituel en sacrifiant les intervalles de très basse ou très haute intensité.

 

Une autre application de la compression, la surcompression pour diffusion sonore de musique

   La notion de sons surcompressés en dynamique d'intensité est également utilisée dans la vie quotidienne avec une toute autre intention. Il s'agit d'empêcher les bruits parasites de gêner notre écoute. En effet, les neurones ont une autre limitation de leur tâche de codage des sons, qui se manifeste lorsque leur faible dynamique d'intensité des PA doit faire face à l'existence simultanée de deux sources sonores, par exemple une source cible de l'attention et des bruits parasites. Lorsque les bruits parviennent à faire répondre les neurones dédiés à la source cible, les PA qu'il induisent occupent une partie de la "bande passante" des neurones, et réduisent leur capacité à coder le son cible: pendant que les neurones répondent aux bruits, leur capacité à coder pour la source cible est réduite car après chaque PA en réponse à un bruit, un neurone se retrouve hors-jeu pendant quelques millisecondes, comme nous l'avons vu plus haut. La solution vient de la compression de dynamique d'intensité réglée de manière à réduire l'écart d'intensité entre les parties faibles et fortes de la source sonore cible, puis à reporter le tout au voisinage du plus haut niveau tolérable: les vallées durant lesquelles le son cible est relativement faible se trouvent comblées. Ceci ne laisse pas de possibilité aux bruits (qui, eux, sont non compressés), de venir stimuler les neurones auditifs pendant les vallées du son cible. Ces vallées peuvent être temporelles (par exemple, les pauses d'intensité entre deux syllabes d'une parole) ou spectrales (dans la musique, des passages où le spectre est concentré sur les graves ou les aigues, mais pas les deux en même temps). Les situations visées par la surcompression sonore sont celle d'une pièce de musique à écouter dans notre habitacle de voiture en plein embouteillage, celle d'une conversation en visioconférence lorsqu'un collègue a la parole mais que d'autres émettent des petits bruits potentiellement gênants.

Ce résultat apparemment très positif qui aboutit à un débruitage et, apparemment, une meilleure audibilité, est obtenu par remplissage des micro-silences pendant lesquels les bruits parasites auraient eu la meilleure chance de venir interférer avec notre écoute. Mais… peut-être, ces micro-silences sont-ils précisément ceux dont profite notre système auditif pour effectuer le plus urgent de sa maintenance, car le travail qui lui est demandé, celui de produire des PA, est métaboliquement très exigeant. Faute de cette maintenance, pourrait-il se fatiguer plus rapidement et cette fatigue pourrait-elle le mettre en danger? Il se trouve justement que les usagers des sons surcompressés en dynamique d'intensité se plaignent souvent de troubles auditifs secondaires à leur utilisation.

C'est cette question que nous avons commencé à examiner expérimentalement. Comme notre hypothèse de travail était qu'une exposition intense, par exemple à de la musique, et l'utilisation d'une compression de dynamique d'intensité, pouvaient être dangereuses même temporairement malgré le respect des préconisations actuelles en termes de sécurité auditive, il nous fallait un modèle animal. Celui dont la gamme auditive se rapproche de celle de l'homme et qui permet des tests en situation d'éveil avec de la musique identique à celle jouée en concert est le cochon d'inde (cavia porcellus, le cobaye). Nous ne pouvions nous contenter de mesures auditives simples, comme la détermination des seuils auditifs, puisque la découverte récente d'une nouvelle entité, celle des surdités "cachées", met en question l'évaluation auditive lorsqu'elle se limite à une recherche de seuils. Une fois conditionné, le cobaye se prête aux tests auditifs choisis et notamment à la mise en place des écouteurs dans ses conduits auditifs, sans anesthésie ni contention autre que le placement dans un harnais spécialement conçu pour éviter des mouvements de tête trop brusques. Après une brève habituation, les animaux se montraient coopératifs. Les tests auditifs choisis permettaient des mesures objectives calibrées rapides, aisément répétables et parfaitement indolores.

La première mesure s'appelle otoémissions acoustiques, elle consiste à enregistrer des sons émis par les CCE mentionnées précédemment. Ce sont les otoémissions qui traduisent les vibrations de ces cellules, amplificatrices et compressives, lorsqu'elles effectuent leur tâche de mise en forme des stimuli sonores. La présence d'otoémissions démontre le fonctionnement normal des CCE. Indirectement, elle démontre la sensibilité auditive normale de l'oreille interne puisqu'elle est déterminée par l'amplification des CCE. Le test d'otoémissions est effectué grâce à la mise en place dans l'oreille testée d'une petite sonde hermétique, tenue en place par un bouchon d'oreille, dont l'écouteur émet des stimuli sonores tandis qu'un petit microphone enregistre les sons présents dans le conduit auditif qui contiennent les otoémissions. Incidemment, les otoémissions servent au dépistage néonatal universel de l'audition dans toutes les maternités d'Europe.

Le deuxième test auditif est la mesure du réflexe des muscles de l'oreille moyenne, dont la contraction est déclenchée par l'écoute d'un son test intense appliqué à une oreille. Les muscles des deux oreilles se contractent alors et réduisent l'énergie sonore traversant la membrane tympanique et les osselets de l'oreille moyenne pour aller stimuler l'oreille interne, jouant ainsi un rôle de protection vis-à-vis des sons trop intenses. La contraction réflexe musculaire est aisément mesurée, soit par l'augmentation du niveau sonore dans le conduit auditif (puisque moins de son est transmis à l'oreille interne et que le son non transmis reste dans le conduit auditif), soit par la diminution des otoémissions (puisque celles-ci doivent traverser la chaine tympano-ossiculaire pour atteindre la sonde de mesure, et que leur traversée est diminuée par la contraction musculaire). L'intérêt de cette deuxième méthode de mesure est qu'elle peut être effectuée avec la même sonde que les otoémissions, sans avoir besoin de la replacer, ce qui évite de déranger l'animal et fait gagner du temps.

Il restait à choisir une musique représentative avec version originale non compressée, et d'en préparer une version surcompressée par nos soins selon des paramètres jugés adéquats pour supprimer les micro-silences. Bien que très intense, la surcompression d'intensité n'entrainait pas de jugement adverse des auditeurs, sur le plan esthétique. La musique était de style pop, de durée 5 minutes environ, choisie pour sa richesse spectrale sous-tendant des énergies bien équilibrées dans les différentes bandes de fréquence, de manière stable tout au long du morceau. Autrement dit, même dans la version originale, la partition permettait de stimuler l'ensemble de l'oreille interne et des voies auditives sans les laisser "respirer" autrement qu'en comptant sur les micro-silences de la version originale. Nous avons choisi de diffuser ce morceau bien calibré en boucle pendant 4 heures pour simuler la durée estimée d'un séjour en discothèque (chez l'humain bien sûr). Le niveau a été réglé à 102 décibels (dits A, ajustés au spectre en fréquences de l'audition humaine) qui est le maximum toléré légalement en France. Les deux versions du morceau, originale et compressée, étaient réglées exactement au même niveau de 102,0 décibels, comportant donc la même énergie moyenne qu'il y ait ou non des micro-silences. La diffusion du morceau se faisait dans une petite enceinte insonorisée simulant une mini-discothèque pour cochons d'inde, dans laquelle deux animaux à la fois (se tenant compagnie pour minimiser tout stress) étaient exposés pendant qu'un dispositif acoustique contrôlait en continu la conformité des niveaux joués. Les animaux étaient filmés en permanence pour vérifier l'absence d'incident lié à un éventuel stress. Ils avaient été entrainés pendant une dizaine de jours à subir des tests auditifs en harnais, ainsi que des séances en "mini-discothèque", silencieuse pendant la période d'habituation.

Le plan expérimental a consisté à effectuer les tests auditifs juste avant l'exposition, juste après, donc au bout de 4 heures, et ensuite à 24, 48 heures et une semaine. Les animaux étaient tirés au sort, à l'insu de l'expérimentatrice (le Dr Dos Santos), pour recevoir une exposition soit à la musique originale, soit à la musique compressée. Les tests avant exposition servaient de ligne de base, à laquelle les réponses suivant l'exposition étaient comparées. Si une réponse après exposition était diminuée, on parlait alors de fatigue auditive.

Aucune fatigue durable des cellules sensorielles de l'oreille interne n'a été observée, les otoémissions n'étant que légèrement diminuées, d'ailleurs seulement dans la zone des plus basses fréquences, et seulement à la fin de l'exposition de 4 heures, quelle que soit la présence ou non de compression. Dès 24 heures, la récupération était totale à toutes les fréquences. Indirectement, ceci nous apprend que la sensibilité auditive n'est pratiquement pas affectée par l'exposition intense de 102 dB en 4 heures: il n'y a pas de surdité visible. On peut en déduire que la réglementation actuelle semble bien protectrice pour l'oreille interne, tout au moins pour une telle exposition strictement occasionnelle.

Le comportement du réflexe des muscles de l'oreille, anodin pour le groupe musique originale, se singularisait pour le groupe compressé. Pour le groupe original, la force de ce réflexe de protection récupérait de sa diminution mesurable juste à la fin de l'exposition: à partir d'une journée de repos, on retrouvait des valeurs de force identiques à celles de la ligne de base. Pour le groupe compressé, au contraire, la force de ce réflexe de protection n'a jamais récupéré entre la fin de l'exposition et la mesure effectuée une semaine plus tard. Cette force a stagné, en moyenne, à 40% de la valeur de base avant toute exposition. Le réflexe des muscles de l'oreille est contrôlé par des voies neuronales auditives et motrices formant des circuits qui incluent le nerf auditif, des neurones du tronc cérébral (la partie basse du système auditif central) et des neurones moteurs des muscles de l'oreille moyenne. Pour que la force du réflexe soit durablement diminuée malgré une sensibilité auditive normale, il faut supposer l'apparition de lésions neuronales ou synaptiques le long de ces voies. Mais ces lésions ne seraient pas détectables lors d'une stimulation à de faibles niveaux sonores puisqu'à ces niveaux, les neurones concernés ne sont pas actifs. De ce point de vue, la surdité dans laquelle ils sont impliqués est "cachée" et ne peut être révélée par l'utilisation des tests audiologiques habituels.

 

  Discussion

Ces travaux soulèvent plusieurs questions propres à la technique même de compression de dynamique d'intensité: y a-t-il des limites à respecter, comme la quantité de silences par seconde diffusée et par bande de fréquences? Peut-on définir des indicateurs acoustiques qui permettraient de savoir si une exposition sonore compressée menace ou pas l'intégrité du système auditif, et qui viendraient compléter celui déjà existant qui porte sur l'énergie totale reçue pendant une exposition et tient compte à la fois des niveaux et des temps d'exposition? Les techniques actuelles de sonorisation nous forcent à rechercher de tels indicateurs, d'autant que les résultats concernant la musique compressée à très haut niveau pourraient s'étendre à des sons de parole transmis par visioconférence compressée. Cette technique de plus en plus répandue suscite des critiques de la part des utilisateurs professionnels, se plaignant de fatigue auditive prolongée. Peut-on extrapoler le message alarmant à des situations, citées au début de cet article, où une compression de dynamique d'intensité est appliquée pour suppléer la disparition des mécanismes physiologiques de compression intracochléaire, dont nous avons expliqué la nécessité? A priori la situation est très différente. Le but de ces compressions audioprothétiques n'a jamais été d'empêcher des sons concurrents de se manifester, elles sont donc réglées de manière à simuler la compression naturelle, en respectant notamment l'intelligibilité de la parole. Le signe d'une surcompression agressive est son effet de comblement des micro-silences au point, c'est son but, d'éliminer toute audibilité des sons concurrents, mais en contrepartie, de dégrader l'intelligibilité de la parole qui repose sur une modulation suffisante pour bien séparer les syllabes.

Pour l'implant cochléaire, dans la mesure où la compression d'intensité du son extérieur doit être draconienne pour faire passer le maximum d'informations acoustiques en direction des neurones auditifs, malgré la très faible dynamique finale disponible compte tenu de la stimulation neuronale électrique directe agressive, on pourrait se poser la question d'un risque de fatigue accru. En fait ce risque est contrôlé par la stratégie de simulation des électrodes. Quelle que soit celle définie par le fabricant et celle choisie par le régleur, le choix est inclus de ne pas stimuler toutes les électrodes mais plutôt un sous-groupe de celles-ci, qui dépend de la nature du son à coder. On peut par exemple privilégier quelques électrodes qui correspondent aux composantes fréquentielles les plus saillantes du son, et celles-ci changent rapidement au cours du temps, d'une voyelle à la suivante, par exemple. D'autre part, les stimulations des électrodes qu'on choisit de stimuler se font selon une séquence précise, pas toutes à la fois. Ces précautions permettent de garantir facilement qu'on ne se trouve pas dans la situation testée dans l'expérience décrite dans cet article, où l'on stimulait toutes les régions de la cochlée en même temps, sans respecter le moindre micro-silence pour aucune d'entre elles. Nous formulons l'hypothèse (qui reste cependant à vérifier), que les neurones exploitent les passages calmes où leur stimulation diminue suffisamment pour procéder aux nécessaires opérations métaboliques qui les maintiennent en bon état, alors que l'exposition surcompressée les prive de cette possibilité.

Remerciements : Ces travaux ont été soutenus par des subventions de la Fondation Ecouter Voir (2020-2022, puis 2023-24) et de l'Association Internationale des Interprètes de Conférence (AIIC, 2023). Le CeRIAH est soutenu par une bourse de la Fondation pour l'Audition (FPA-IDA-10).