Apprentissage automatique pour le codage cognitif de la parole

Date :: Cet événement est passé.
Type :: Soutenance de thèse
Lieu :: Local C1-3114 de la Faculté de génie et via Teams

Description :
Doctorant: Reza Lotfidereshgi

Directeur de recherche: Roch Lefebvre

Codirecteur de recherche: Philippe Gournay

Président du jury: À être déterminé

Résumé: Des applications telles que la téléphonie mobile et la voix sur IP (VoIP) reposent sur des techniques de codage de la parole pour transmettre les données pertinentes pour le système auditif humain. Depuis les années 80, les codecs vocaux s'appuient sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms), telles que le suivi de la forme d'onde et la mise en forme du bruit. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme issues du traitement du signal, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons des sous-problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. Une méthode de compression cognitive de la parole entièrement basée sur des réseaux de neurones et qui délivre une qualité perceptuelle élevée avec une faible latence est démontrée avec l'approche proposée.