Les IA vont être de plus en plus prégnant à partir d’aujourd’hui. 2023 sera sans doute un année charnière où il y aura eu un avant et un après ces intelligences artificielles (comme avant /après l’arrivée d’Internet ou des smartphone). Il est une utilisation possible qui, bien que déjà adressée dans beaucoup de solution aujourd’hui, devient de plus en plus simple à utiliser et surtout de plus en plus fiable !

Comme le titre de ce post l’indique, je parle de la transcription de son en une version écrite. Cela peut-être une conversation à deux ou plusieurs, des notes audios, les paroles d’une chanson… Bref, un enregistrement avec au moins une personne parlant. Dans les difficultés rencontrés dans ce décodage, il y a bien entendu la prononciation, les accents plus ou moins fort, les bruits ambiants et autres sons perturbateurs. Autres problématiques, le nombres d’intervenants (1, 2, 3 ou plus), se coupent-elles la parole, et quid de gens qui discutent dans des langues différentes… Voilà déjà quelques problématiques pouvant gêner suffisamment la retranscription par les solutions automatiques actuelles.

Alors jusque là, soit on prenait le temps d’écouter sa bande audio et on écrivait au fur et à mesure soi-même (avec tous les allers-retours et les fautes de frappes possibles allongeant d’autant le temps passé en plus de la durée de la conversation…), soit on pouvait payer des personnes pour le faire à votre place. Depuis quelques temps déjà, il existe de nouvelles solutions automatisées ET “intelligentes”. La société Open AI (dont DALL.E ou ChatGPT sont devenu très célèbres depuis quelques semaines) a par exemple créé un modèles d’apprentissage (Whisper) basé sur 680 000 heures d’audio et retranscrites par d’autres méthodes. Ce travail en open source peut être intégré/utilisé au travers d’une interface web ou dans une application en local (comprenez par là que vos données restent sur votre appareil et ne se baladeront pas sur d’autre serveur pour être transcrites).

MacWhisper tire parti de ce developpement en l’intégrant dans un interface Apple, simple et intuitive donc. Avec ce logiciel pour Mac, trois possibilités d’interactions :

  • Déposer le fichier son/vidéo voulu sur l’interface
  • Cliquer sur “Open File“ et aller choisir le fichier concerné (formats acceptés, MP3, WAV, M4A et MP4). L’interface vous affiche la transcription qui est faites immédiatement.
  • Cliquer sur “Record Microphone” (ce qui lance la transcription de ce que vous prononcerez)

C’est super bluffant de rapidité. Mon fichier audio test de 1h30 a été traité en moins de 3 mn sur mon Macbook pro M1. Y avait-il des erreurs, oui quelques-unes, mais là aussi il est très facile de corriger le texte, un clic sur la ligne et on modifie ce qui doit l’être. Point.

Une fois le travail effectué, vous pouvez utiliser l’app pour lire le texte et écouter l’audio en même temps. Les deux informations sont synchronisées, si bien que vous pouvez vous déplacer dans le texte et cliquer n’importe quelle ligne pour écouter la partie correspondante, ou à l’inverse vous déplacer dans le fichier audio et afficher la transcription associée.
MacWhisper génère un fichier de sous-titre aux formats .srt et .vtt. pour sous-titrer des vidéos ou vous pouvez enregistrer au format CSV (horodatage et retour à la ligne) ou Plain Text (pas de retour à la ligne).

Il existe une version professionnelle qui est plus pertinente encore et permet moins d’erreurs grammaticales. Le résultat finale est presque parfait sans retouches et pour une dizaine d’euros, si vous en avez un besoin régulier, cela vaut probablement la peine ! Allez plutôt sur le site de l’auteur 😉

Téléchargez d’abord la version gratuite de MacWhisper puis cliquez sur le bouton “Upgrade to Pro“ pour obtenir une réduction de 20 % !
Elle existe aussi sur le Mac AppStore avec des achats intégrées de 9,99 et 17,99 € (moins intéressant donc…).

A lire également