Audio research group - Tampere University - Speech recognition

One of the major problems in automatic speech recognition technologies is the sensitivity of recognizers to any interfering sounds. Since natural environments often include other sound sources, the performance of the existing technologies is severely limited. Our research team has been doing pioneering work in the recognition of sounds in mixtures, including speech, music, and environmental sounds.

Noise-robust automatic speech recognition

The group has studied novel recognition approaches based on sparse non-negative spectrogram representations of the noisy speech signals, which have produced state-of-the-art recognition performance in very noisy cases. In this area, the team collaborates with Radboud University Nijmegen, Carnegie Mellon University, and Aalto University speech recognition groups.

We have edited a book about noise-robust ASR, which includes contributions from world-leading researchers (Virtanen2012).

Bibliography

article

Deep Learning for Audio Signal Processing
Hendrik Purwins, Bo Li, Tuomas Virtanen, Jan Schüller, Shuo-yiin Chang, Tara Sainath, 2019

conference

ASR in classroom today: Automatic visualization of conceptual network in science classrooms
Daniela Caballero, Roberto Araya, Hanna Kronholm, Jouni Viiri, André Mansikkaniemi, Sami Lehesvuori, Tuomas Virtanen, Mikko Kurimo, 2017

conference

Similarity Induced Group Sparsity for Non-negative Matrix Factorisation
Antti Hurmalainen, Rahim Saeidi, Tuomas Virtanen, 2015

article

Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition
Deepak Baby, Tuomas Virtanen, Jort Gemmeke, Hugo Van hamme, 2015

phdthesis

Robust Speech Recognition with Spectrogram Factorisation
Antti Hurmalainen, 2014

conference

Learning State Labels for Sparse Classification of Speech with Matrix Deconvolution
Antti Hurmalainen, Tuomas Virtanen, 2013

conference

Exemplar-based joint channel and noise compensation
Jort Gemmeke, Tuomas Virtanen, Kris Demuynck, 2013

conference

Compact Long Context Spectral Factorisation Models for Noise Robust Recognition of Medium Vocabulary Speech
Antti Hurmalainen, Jort Gemmeke, Tuomas Virtanen, 2013

article

Modelling Non-stationary Noise with Spectral Factorisation in Automatic Speech Recognition
Antti Hurmalainen, Jort Gemmeke, Tuomas Virtanen, 2013

conference

Acquiring Variable Length Speech Bases for Factorisation-Based Noise Robust Speech Recognition
Antti Hurmalainen, Tuomas Virtanen, 2013

conference

Non-Negative Matrix Factorization for Highly Noise-Robust ASR: to Enhance or to Recognize?
Felix Weninger, Martin Wöllmer, Jürgen Geiger, Björn Schuller, Jort Gemmeke, Antti Hurmalainen, Tuomas Virtanen, Gerhard Rigoll, 2012

book

Techniques for Noise Robustness in Automatic Speech Recognition
Tuomas Virtanen, Rita Singh, Bhiksha Raj, 2012

conference

Modelling spectro-temporal dynamics in factorisation-based noise-robust automatic speech recognition
Antti Hurmalainen, Tuomas Virtanen, 2012

conference

Detection, Separation and Recognition of Speech From Continuous Signals Using Spectral Factorisation
Antti Hurmalainen, Jort Gemmeke, Tuomas Virtanen, 2012

conference

Group Sparsity for Speaker Identity Discrimination in Factorisation-based Speech Recognition
Antti Hurmalainen, Rahim Saeidi, Tuomas Virtanen, 2012

conference

Exemplar-Based Speech Enhancement and its Application to Noise-Robust Automatic Speech Recognition
Jort Gemmeke, Tuomas Virtanen, Antti Hurmalainen, 2011

conference

Exemplar-based Recognition of Speech in Highly Variable Noise
Antti Hurmalainen, Katariina Mahkonen, Jort Gemmeke, Tuomas Virtanen, 2011

conference

Uncertainty measures for improving exemplar-based source separation
Heikki Kallasjoki, Ulpu Remes, Jort Gemmeke, Tuomas Virtanen, Kalle Palomäki, 2011

article

Exemplar-based Sparse Representations for Noise Robust Automatic Speech Recognition
Jort Gemmeke, Tuomas Virtanen, Antti Hurmalainen, 2011

conference

Toward a Practical Implementation of Exemplar-Based Noise Robust ASR
Jort Gemmeke, Antti Hurmalainen, Tuomas Virtanen, Sun Yang, 2011

conference

Non-negative matrix deconvolution in noise robust speech recognition
Antti Hurmalainen, Jort Gemmeke, Tuomas Virtanen, 2011

conference

Noise robust exemplar-based connected digit recognition
Jort Gemmeke, Tuomas Virtanen, 2010

conference

Non-negative matrix factorization based compensation of music for automatic speech recognition
Bhiksha Raj, Tuomas Virtanen, Sourish Chaudhure, Rita Singh, 2010

conference

Speech Recognition Using Factorial Hidden Markov Models for Separation in the Feature Space
Tuomas Virtanen, 2006