Faculté informatique et communications IC, Section des systèmes de communication, Institut de systèmes de communication ISC (Laboratoire de communications audiovisuelles 1 LCAV1)

Parametric coding of spatial audio

Faller, Christof ; Vetterli, Martin (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2004 ; no 3062.

Ajouter à la liste personnelle
    Summary
    A wide range of techniques for coding a single speech or audio signal channel have been developed over the last few decades. In addition to pure redundancy reduction, sophisticated source and receiver models have been considered for reducing the bitrate. Only a few techniques address joint-coding of the channels of stereo1 and multi-channel audio signals. Stereo and multi-channel audio signals evoke an auditory spatial image in a listener. Thus the receiver model may consider properties of spatial hearing of the auditory system for reducing the bitrate. This has been done in previous techniques by considering the importance of interaural level difference cues at high frequencies and by considering the binaural masking level difference for computing the masked threshold for multiple audio channels. The coding scheme proposed in this thesis aims at being more systematic and parameterized. A stereo or multi-channel audio signal is represented as a single downmixed audio channel plus side information. The side information contains the inter-channel cues inherent in the original audio signal that are relevant for the perception of the properties of the auditory spatial image. At the decoder the stereo or multi-channel audio signal is reconstructed such that its inter-channel cues approximate the corresponding cues of the original audio signal. This enables coding of stereo or multi-channel audio signals at a bitrate nearly as low as a mono audio coding bitrate because the side information contains about two orders of magnitude less information than the original audio channel waveforms. This corresponds to a significant bitrate reduction compared to conventional state-of-the-art coders. Several subjective tests were conducted, indicating that good audio quality can be achieved by the proposed scheme. A number of variations of the coding scheme are proposed. These include different combinations of conventional multi-channel audio coders and the proposed coding scheme, and a scheme which provides flexibility at the decoder to manipulate the auditory spatial image. A model for source localization in the presence of concurrent sound (other sources and reflections) is proposed. The results from a number of previous psychophysical studies are predicted successfully by the model. The model is also applied for comparing audio signals to corresponding signals coded with the proposed scheme. 1In this thesis, the term "stereo audio signal" always refers to two-channel stereo audio signals.
    Zusammenfassung
    In den letzten Jahrzehnten wurden eine Vielzahl von Techniken zur Kodierung von monophonen Sprach- und Audio Signal Kanälen entwickelt. Neben Redundanzreduktion wurden auch Sender- und Empfängermodelle berücksichtigt, um die Datenrate weiter zu reduzieren. Nur relativ wenige Techniken berücksichtigen jedoch die gemeinsame Kodierung der Kanäle von Stereo1- und Multikanalsignalen. Stereo- und Multikanalsignale rufen eine räumliche Wahrnehmung bei dem Zuhörer hervor. Deshalb gibt es die Möglichkeit, im Empfängermodell Eigenschaften des räumlichen Hörens zu berücksichtigen um die Kodierungsbitrate zu reduzieren. Existierende Techniken erreichen dies, indem sie die wichtige Rolle der interauralen Intensit ätsunterschiede und binaurale Eigenschaften der Verdeckung für die Berechnung der Maskierungsschwellen berücksichtigen. Das Kodierungsverfahren, das in dieser Dissertation vorgestellt wird, hat das Ziel einer verbesserten Systematik und Parametrierbarkeit. Ein Stereo- oder Multikanalsignal wird als ein heruntergemischter, monophoner Audiokanal plus Seiteninformation represäntiert. Die Seiteninformation repräsentiert Interkanaleigenschaften eines gegebenen Audiosignals, die wichtig für die räumliche Wahrnehmung sind. Das so repräsentierte Audiosignal wird durch Dekodierung in ein Multikanalsignal umgeformt, das die gleichen Interkanaleigenschaften hat wie das ursprüngliche Audiosignal. Damit wird die Kodierung von Stereo oder Multikanalsignalen mit nahezu einer Monokodierungsbitrate möglich, weil die Seiteninformation um zwei Grössenordnungen weniger Information enthält als die unkodierten Daten des Audiosignals. Das entspricht einer signifikanten Reduktion der Bitrate verglichen mit herkömmlichen Kodierungsverfahren, die dem Stand der Technik entsprechen. Verschiedene subjektive Hörtests zeigen, dass mit dem vorgestellten Kodierungsverfahren eine gute Audioqualität erreicht wird. Verschiedene Variationen des Kodierungsverfahren werden vorgestellt. Unter anderem verschiedene Kombinationen von herkömmlichen und dem vorgestellten Kodierungsverfahren und eine Variation die es dem Dekoder erlaubt, das räumliche Klangbild zu manipulieren. Ein Modell für Quellenlokalisation bei Vorhandensein von "Stör-"geräuschquellen (andere Quellen oder Reflektionen) wird vorgestellt. Resultate von verschiedenen publizierten psychoakustischen Studien werden mit dem Modell richtig vorhergesagt. Das Modell wird auch angewandt um Referenzsignale und deren kodierte Version zu vergleichen, die mit dem vorgestellten Kodierungsverfahren erzeugt wurden. 1Der Ausdruck "Stereosignal" wird in dieser Dissertation immer verwendet für 2-Kanal Stereosignale.