jeudi 30 août 2018 - par Desmaretz Gérard

Police scientifique : la reconnaissance vocale

Dans un enregistrement d'une durée de 54 minutes diffusé sur Telegram le mercredi 22 août 2018, Abou Bakr al-Baghdadi exhorte ses partisans à poursuivre le djihad  : «  A tous les moudjahidines, l'ampleur de la victoire ou de la défaite ne dépend pas d'une ville volée et n'est pas soumise à ceux qui ont la supériorité aérienne, des missiles intercontinentaux ou des bombes guidées  ». Le jeudi 28 septembre 2017, Daesh avait déjà diffusé un enregistrement de quarante-cinq minutes du «  chef  » de l'EI dont la mort avait été annoncée le 16 juin par l'armée russe ! S'agit-il d'un enregistrement du chef du groupe État Islamique, celui d'un imitateur ou d'un montage post-mortem  ?

La voix d’un locuteur peut varier en de très nombreuses occasions : la fatigue, la maladie, le débit, la conviction (persuasion), l'état éthylique, la modification volontaire, l'imitation, les copies de transfert, etc., à laquelle peut venir se superposer des sons externes ou bruits de fond. La voix de chaque individu est influencée par : le genre, l'âge, le physique, l'apprentissage de la parole, le caractère, la langue maternelle, la région, le niveau social et culturel, la pratique du chant, le stress ou encore les expériences de vie.

Avant de s’intéresser à l'analyse de la voix, les spécialistes étudient la manière de parler et le langage (domaine de la linguistique légale), autrement dit : le vocabulaire utilisé - les tournures de phrases - les liaisons - l’articulation de certains phonèmes (variables selon l’origine géographique et le milieu social) - les fréquences et la répartition des pauses - les intonations - la prasodie qui renseigne sur l'état affectif (colère, joie, jubilation, auto contrôle) - les occurrences qui permettent de reconnaitre la catégorie (discours, interview, cours magistral) - les tics ou habitudes langagiers - la durée des syllabes (Un débit vocal rapide supérieur à six syllabes seconde rend difficile leurs localisation au sein du mot, et pour reconnaître un son situé entre 50 Hz et 10 kHz, l'oreille a besoin d'une durée de 250 millisecondes) - le timbre (coloration) de la voix aussi différent pour chacun que pour un instrument de musique...

Les sons produits sont caractérisés par leur fréquence (nombre de vibrations par seconde), leur amplitude (pression de l'air), leur intensité (amplitude de la variation de la pression d'air). Les vibrations du larynx entraînent l'apparition de sons dits voisés, tandis que les cordes vocales fixent la hauteur de la voix (50 muscles sont sollicités). Les cordes vocales masculines font environ 18 millimètres de long contre seulement dix pour les femmes. La hauteur d'un son est proportionnelle à la taille de l'élément vibrant, plus il est épais ou long, plus le son sera grave ; plus il est petit ou court, plus le son sera aigu. Les cordes d'une guitare sont d'une longueur identique, les plus fines produisent des notes plus élevées, sur une harpe, c'est la longueur de la corde qui détermine la note, et le violoncelle résonne plus gravement que le violon. Le timbre de voix dépend du rapport cyclique du signal glottique : de 80 à 200 Hertz pour l'homme, de 150 à 450 Hz pour la femme et de 200 à 600 Hz pour l'enfant, et la plus grande agglutination fréquentielle du français se situe dans la plage 1 à 2 kHz.

Si nos cordes vocales nous servent à moduler et à émettre un son, d'autres organes sont impliqués dans la phonation : le voile du palais, la langue et les lèvres nous permettent d’articuler les sons ; le nez, la cavité buccale, le pharynx servent de caisse de résonance. Le conduit vocal va renforcer les fréquences de résonance propres dans le spectre sonore. Les formants (Helmholtz) correspondent aux amplitudes maximum du spectre, les plus significatifs pour la langue française sont : 200 Hz à 900 Hz - 500 Hz à 2500 Hz - 1500 Hz à 3500 Hz. tout résonateur accordé vient renforcer une fréquence. Une cavité résonant sur 500 Hz par exemple, renforcera la cinquième harmonique d'un son de 100 Hz.

La voix n'est pas un son pur, il y a toujours des superpositions de fréquences harmoniques et de fréquences partielles qui sont des multiples non entiers de la fondamentale, tandis que l'enveloppe du son caractérise son évolution dans le temps. Une phrase se décompose en mots, un mot en syllabes, une syllabe en phonèmes (sons de base de la langue), on en compte 37 (voyelles, semi-voyelles, consonnes) en français, et 44 en anglais. Le français n'est pas une langue véritablement phonétique, chaque phonème se prononce différemment selon l'environnement. Bateau se lit d'une seule façon, mais peut s'écrire de différentes manières ; le son [O] correspond-t-il au phone (la différence d'un même phonème) : o - ô - au - eau ? Le locuteur prononce-t-il différemment brun et frein ou prononce-t-il 1 pour les deux graphies ? La langue française compte 786 groupes de deux phonèmes dont on a ôté le début (attaque) et la fin (chute). Examinons l'enveloppe de « a » et « r » du mot : a-r-ch-e-vé-ch-é, nous avons l'attaque de « a », la phase stationnaire qui forme un plateau, la transition de « a » suivi du plateau du « r » et de son extinction. Le grand nombre de phonèmes et de graphèmes du français est une des causes de la dysorthographie, graphie largement utilisée par les jeunes pour la rédaction des SMS (Kc pour cassé par exemple).

Les techniciens de la gendarmerie (IRGN) et ceux de la police technique (SDPTS) utilisent Batvox, un logiciel espagnol utilisé dans la lutte contre l'ETA, les pionniers en matière de reconnaissance vocale furent l'URSS et la RDA qui disposaient d'une banque de données importante permettant des comparaisons avec un grand nombre de citoyens... Les prouesses de l'ordinateur dans le traitement des signaux n'ont été rendues possibles que par la transformée de Fourier (Cooley & Turkey 1965). Fourier a démontré que tout signal périodique peut être considéré comme une combinaison d'oscillations sinusoïdales de fréquence F0, 2F0, 3F0, etc., qui représentent les harmoniques. La mise en évidence d'une forme qui se répète de nombreuses fois permet d'en extraire la période au bout de laquelle le signal se répète à nouveau, permettant ainsi de reconstituer le signal initial.

Pour utiliser le logiciel au mieux, le technicien se doit à disposer d'un bon enregistrement, d'en ôter les bruits indésirables et en repérer les passages exploitables. Ce logiciel utilisé lors de l'affaire Cahuzac pour analyser un enregistrement d'une durée de 7 secondes, a authentifié la voix de l'ex ministre avec une fiabilité statistique de 60 %. La technicienne de police qui a travaillé à partir d'un échantillon d'une vingtaine de minutes et sur vingt mots et 3 syllabes, a désigné Cahuzac après avoir établi près d'une centaine de comparaisons, fiabilité avancée ? 80 % ! Si on cumule les deux scores, on a qu'une probabilité de 48 % ! « Nous sommes en présence de probabilités ou statistiques... une probabilité que cette voix appartienne à telle personne, mais nous ne savons pas quelle est la fiabilité de ce résultat, nous n’avons aucun moyen d’évaluer la marge d’erreur  ».

Les techniciens-acousticiens recherchent également tous les éléments d'information leur permettant de dater l'enregistrement par les propos tenus ou le bruit de fond. Abou Bakr al-Baghdadi fait allusion dans le premier enregistrement, aux surenchères entre les États-Unis et la Corée du nord, ce qui permet d'établir une « fenêtre » de plausibilité. Savez-vous que le réseau 50 Hz est enregistré en permanence dans toute l'Europe ! Comme cette « ronflette » varie constamment, il est possible de connaitre la date, l'heure et la zone de l'enregistrement !

La mission de l’expert consiste à dire si : les différences constatées sont dues à une modification de la voix d’un même locuteur - s'il s’agit de deux locuteurs différents - si on se trouve en présence d'une voix « maquillée » - ou d'un faux par montage ! En 1992, les médias ont relaté l'interception d'une conversation téléphonique de Yaser Arafat dans laquelle il tenait des propos virulents à l'encontre d'Israël. Il déclara qu'il s'agissait d'un trucage monté de toutes pièces par l'État hébreux. Il est vrai que la voix d'un individu peut toujours être enregistrée à son insu pour faire ensuite l'objet d'un montage ou trucage sonore. On entend par trucage toutes sortes d'effets spéciaux, adjonction ou suppression de sons, densification des sons soit en les renforçant soit en les diminuant afin de fausser l'impression ressentie de l'auditeur, l'ajout d'un fond sonore pour masquer d'autres sons, bruitage afin de laisser penser à un lieu en particulier, play-back et multiplay ou surimpressions sonores. On peut aussi déphaser les signaux (le son ne prend pas son départ simultanément avec le signal initial).

Rien de plus facile que d'ôter des mots ou des partie de ceux-ci au sein d'une phrase prononcée par un citoyen quelconque et de les ré-agencer pour en modifier le sens. La durée d'une syllabe varie de 180 à 280 millisecondes, et les pauses ont lieu en moyenne toutes les six syllabes avec une durée d'environ 800 millisecondes, ce qui représente une longueur de bande magnétique d'une trentaine de centimètres, plus qu'il en faut à un monteur habile qui peut éliminer un son élémentaire inférieur à 1/5 de seconde d'un mot !

L'idée de faire échec à la reconnaissance vocale a effleuré nombre de scénaristes, dans certains polars on voit l'appelant placer un mouchoir sur le microphone du combiné. Des agents de la CIA mettaient en bouche un faux palais, d'autres des dragées, une pince à linge sur le nez pour modifier la fréquence des résonateurs naturels ! Autre possibilité, l'utilisation d'un déformateur de voix, le locuteur pourra ainsi se faire passer pour un homme, une femme, un enfant, ou un allien, à moins qu'il n'opte pour l'inspiration d'une bouffée d'hélium contenu dans un ballon, la vitesse du son dans l'hélium, 930 m.s-1, est à l'origine de l'effet « Donald Duck » (d'autres gaz peuvent être utilisés pour varier l'effet, le Néon, par exemple, rend la voix plus grave). Les déformateurs de voix sont apparus afin de déjouer les détecteurs de mensonges prenant leurs indices dans l'état émotionnel de la voix (stress). Des sociétés de crédit et des compagnies d'assurances utilisent ce genre d'appareils afin de s'assurer de la sincérité de leurs clients, une ville d'Angleterre l'a utilisé pour dépister les escrocs aux allocations... L'analyse judiciaire a bien d'autres applications : demande de rançon, persécuteur, appels malveillants, mauvais plaisant, etc.

Les possibilités ou contre-mesures ne s'arrêtent pas à ces quelques exemples. Si on utilise un magnétophone à bande, on peut modifier l'azimutage de la tête après l'avoir nettoyée soigneusement et le rétablir le travail accompli. Les copies devront se faire à des vitesses différentes. Il est possible d'insérer un vibrato (légère modulation de la voix), un phasing donnant l'impression de la respiration, un flanger qui introduit une lente modulation en fréquence, un effet de réverbération riche en harmoniques, un l'effet d'écho (décalage dans le temps). Attention ! chaque appareil peut délivrer une signature propre à celui-ci !

Les DJ savent tirer parti de leur platine en freinant la vitesse du disque pour obtenir une modification de la fréquence, idem pour un magnétophone à bande ! Si le son est reproduit à la vitesse immédiatement supérieure (1,2 - 2,5 - 4,75 - 9 - 19 - 38 - 76 cm/sec), il est plus aigu d'une octave, à l'inverse, pour une vitesse inférieure, il est plus grave d'une octave (huitième degré de l'échelle diatonique). Si une bande passante de 18 kHz est nécessaire pour la HI-FI, une BP de 2 kHz suffit largement pour la restitution et la compréhension de la parole. L'enregistrement terminé, il suffit de passer par une liaison téléphonique pour bénéficier des nombreux filtres qui contribuent à réduire la BP à 3,3 kHz et de descendre en vitesse. Une vitesse « bâtarde » peut être obtenue en insérant une résistance en série dans l'alimentation du moteur (loi d'Ohm). Pour conserver l'intelligibilité du message, il faut parler d'une voix lente pour l'enregistrement à vitesse élevée, et avec une voix rapide dans le cas inverse. Toutes ces remarques restent transposables aux nombreux logiciels (échantillonnage) disponibles sur Internet.

Un magnétophone reste bien plus sûr qu'un ordinateur. Les services de renseignement ont longtemps utilisé le Nagra JBR (11 x 6 x 2 cm, 143 grammes) ou le magnétophone Kudeski (réf SN). Les SR qui craignaient d'être confrontés à un montage sonore ont équipé leurs agents d'un mini-magnétophone stéréo doté d'une piste pilote centrale et d'un compresseur de modulation, dépourvu de sa tête d'effacement et de lecture pour en réduire l'encombrement et approvisionné par une cassette spéciale qui excluait tout montage de la bande. L'appareil était blindé et la fréquence du courant de prémagnétisation modifiée afin d'en rendre la détection plus difficile.

Le cinéma nous a habitué à voir 007 parler dans la salle de bain les robinets grand ouverts, ou la musique à fond espérant ainsi altérer la qualité d'un enregistrement réalisé à son insu. Il existe bien d'autres possibilités, l'utilisation d'un générateur de bruit blanc dont le son ressemble au « bruit de la mer », l'oreille collée contre un coquillage. Le bruit blanc est réparti sur toute la bande passante (vous pouvez en télécharger sur Google Play). Une boucle créant un champ magnétique puissant dans toute la pièce (vous ceinturez la pièce avec un câble totalisant une résistance égale à l'impédance du haut-parleur), un générateur d'ultrasons relié à un tweeter suffit pour saturer la plupart des microphones. La contre-contre-mesure ? je vous la révèle, un « micro » dont la membrane en mylar réfléchit le signal lumineux acheminé par une fibre optique !

En matière pénale, la valeur de la preuve est laissée à la libre appréciation des juges. Le Code de procédure pénale admet, sous certaines réserves, les preuves obtenues avant la mise en examen, au moyen d'un appareil enregistreur. Lors d'une disparition d'enfant, un détective conseilla à sa cliente d'enregistrer les propos tenus par son mari lors d'une soirée durant laquelle il disait être l'auteur de l'assassinat de l'enfant. Malgré ses dénégations devant les juges, l'homme fut inculpé sur l'écoute de la bande magnétique, qui au dire de son défenseur, était de piètre qualité et presque inaudible...

Si La voix d’un individu est considérée comme unique, on ne saurait pour autant parler d'« empreinte vocale » ce qui laisserait supposer une fiabilité égale à l'empreinte papillaire ou génétique qui présente des caractéristiques fixes. On préfère parler de signature sonore. En 1997, le comité du Groupe de la Communication Parlée du Groupement des Acousticiens de Langue Française, a réaffirmé : «  l'identification d'un locuteur reste encore un problème non résolu, les méthodes utilisées jusqu’à maintenant ne sont pas fiables. (...) À la suite d'un cas judiciaire récent les spécialistes de parole viennent de demander que les expertises vocales ne soient plus utilisées par la Justice tant qu'elles n'auront pas été validées scientifiquement. »

°°°°°°°°°°°°°°°°°°°°°



4 réactions


  • lejules lejules 30 août 2018 18:27

     je ne connaissais rien dans ce domaine un peu technique mais article très intéressant


  • Francis, agnotologue JL 30 août 2018 20:33
    ’’Le timbre de voix dépend du rapport cyclique du signal glottique’’’ 
     
     ?
     
    Le Timbre est à la voix ce que sont les empreintes digitales : invariant selon que l’on parle haut ou grave. s’il varie avec l’âge, en revanche il est relativement stable et identifiable dans le court terme, à condition de ne pas travestir sa voix.
     
    Le timbre d’un signal sinusoïdal tel celui produit par un instrument de musique, est très stable puisque non soumis aux émotions. Ce qui le définit, ce sont ses harmoniques : le signal est composé d’une fondamentale additionnée de plusieurs harmoniques - signaux de fréquences multiples - une fois, deux fois, etc. -, d’intensité généralement inférieures à la fondamentale et décroissantes.
     
     Les appareils d’analyse de sons sont basés sur les travaux de Joseph Fourrier cf. Transformée de Fourrier.

  • Alren Alren 31 août 2018 13:35
    Exposé très documenté et précis.

    Les combattants islamistes doivent croire et faire croire qu’Allah protège leur entreprise.

    Il est évident que la mort d’un chef démontre que ce soutien n’existe pas au plus naïf des croyants.

    Faire revivre artificiellement le chef mort avec un faux enregistrement donne au contraire l’illusion d’une invulnérabilité.

    On peut donc augurer que de tels imitations de voix existent.


  • L'Astronome L’Astronome 1er septembre 2018 11:26
     
    Et que penser des imitateurs (Le Luron, etc.) ? Leur voix, parfois très proche de celle des gens qu’ils imitent, est-elle identifiable par l’analyse phonétique ?
     

Réagir