Faculté des sciences et techniques de l'ingénieur STI, Section de génie électrique et électronique, Institut de traitement des signaux ITS (Laboratoire de traitement des signaux 3 LTS3)

Feature extraction of musical content for automatic music transcription

Zhou, Ruohua ; Mattavelli, Marco (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3638.

Ajouter à la liste personnelle
    Summary
    The purpose of this thesis is to develop new methods for automatic transcription of melody and harmonic parts of real-life music signal. Music transcription is here defined as an act of analyzing a piece of music signal and writing down the parameter representations, which indicate the pitch, onset time and duration of each pitch, loudness and instrument applied in the analyzed music signal. The proposed algorithms and methods aim at resolving two key sub-problems in automatic music transcription: music onset detection and polyphonic pitch estimation. There are three original contributions in this thesis. The first is an original frequency-dependent time-frequency analysis tool called the Resonator Time-Frequency Image (RTFI). By simply defining a parameterized function mapping frequency to the exponent decay factor of the complex resonator filter bank, the RTFI can easily and flexibly implement the time-frequency analysis with different time-frequency resolutions such as ear-like (similar to human ear frequency analyzer), constant-Q or uniform (evenly-spaced) time-frequency resolutions. The corresponding multi-resolution fast implementation of RTFI has also been developed. The second original contribution consists of two new music onset detection algorithms: Energy-based detection algorithm and Pitch-based detection algorithm. The Energy-based detection algorithm performs well on the detection of hard onsets. The Pitch-based detection algorithm is the first one, which successfully exploits the pitch change clue for the onset detection in real polyphonic music, and achieves a much better performance than the other existing detection algorithms for the detection of soft onsets. The third contribution is the development of two new polyphonic pitch estimation methods. They are based on the RTFI analysis. The first proposed estimation method mainly makes best of the harmonic relation and spectral smoothing principle, consequently achieves an excellent performance on the real polyphonic music signals. The second proposed polyphonic pitch estimation method is based on the combination of signal processing and machine learning. The basic idea behind this method is to transform the polyphonic pitch estimation as a pattern recognition problem. The proposed estimation method is mainly composed by a signal processing block followed by a learning machine. Multi-resolution fast RTFI analysis is used as a signal processing component, and support vector machine (SVM) is selected as learning machine. The experimental result of the first approach show clear improvement versus the other state of the art methods.
    Résumé
    Cette thèse aborde le sujet de la transcription musicale, que l'on définit ici comme le fait d'analyser le signal d'un morceau de musique, et d'en tirer une représentation paramétrique qui indique le ton, l'instant de l'attaque, la durée de la note, sa force et l'instrument utilisé dans le signal musical analysé. De nouvelles méthodes de transcription de la mélodie et des parties harmoniques d'un signal musical, tel qu'on en trouve dans la vie réelle, en résultent. Les algorithmes et les méthodes proposées sont axées sur la résolution de deux sous-problèmes clés dans la transcription de la musique : la détection de l'attaque et l'estimation des tons polyphoniques. Il y a trois apports inédits dans cette thèse : Le premier est un outil d'analyse temps-fréquence : le RTFI (pour Resonator Time-Frequency Image). En définissant simplement une fonction paramétrée faisant correspondre une fréquence au facteur exponnentiel de declin du groupe de filtres complexes du résonnateur, le RTFI peut servir à implémenter facilement l'analyse temps-fréquence, avec différentes résolutions du domaine temps-fréquence, telles que celle de l'oreille humaine, avec un facteur Q constant, ou encore uniforme (espacée régulièrement). Une implémentation rapide avec plusieurs résolutions simultanées a également été développée. Deux nouveaux algorithmes de détection de l'attaque constituent le deuxième apport : l'un basé sur l'énergie et l'autre sur le ton. Celui basé sur l'énergie se comporte bien sur de fortes attaques. Celui basé sur le ton est le premier à exploiter correctement le changement de ton dans la détection d'attaque d'une musique polyphonique réelle, et offre de bien meilleurs résultats que les autres algorithmes existants, quant il s'agit de détecter des attaques douces. Enfin, deux nouvelles méthodes d'estimation des tons polyphoniques sont proposées : la première, basée sur l'analyse RTF, exploite au mieux la relation harmonique et le principe du lissage spectral. Elle fournit par conséquent d'excellentes performances quand elle est appliquée à des signaux de musiques polyphoniques réelles. La seconde est basée sur une combinaison de traitement de signal et d'apprentissage de la machine. L'idée fondamentale de cette méthode est de transformer l'estimation de tons polyphoniques en un problème de reconnaissance de modèles. L'analyse RTFI rapide avec plusieurs résolutions simultanées sert au traitement du signal et l'apprentissage de la machine est géré par SVM (Support Vector Machine). Les résultats des essais effectués avec cette méthode montrent de claires améliorations de l’état de l’art.