Triskill

BirdCLEF 2024 : les spectogrammes

Un des éléments techniques centraux de ce projet est le spectogramme. Un spectrogramme est une représentation visuelle de l’intensité des fréquences d’un signal audio en fonction du temps.

Pour ce faire je vais utiliser la librairie Python librosa adoptée en masse dans le mode de l’ingénierie acoustique et la musique. Ce module permet de charger et sauvegarder des fichiers sons à de nombreux dont ogg, format des fichiers audio que nous avons à disposition.

On peut également extraire diverses caractéristiques audios telles que le spectre de puissance, la chroma (liée aux notes musicales), le mel-spectrogramme (qui est une représentation perceptuelle du spectre sonore), les coefficients cepstraux en fréquence de Mel (MFCCs), et plus encore. 

Et enfin on peut visualiser ces éléments à l’aide du module Matplotlib par exemple.