Apprentissage automatique pour le codage cognitif de la parole
- Date :
- Cet événement est passé.
- Type :
- Soutenance de thèse
- Lieu :
- Local C1-3114 de la Faculté de génie et via Teams
Description :
Doctorant: Reza Lotfidereshgi
Directeur de recherche: Roch Lefebvre
Codirecteur de recherche: Philippe Gournay
Président du jury: À être déterminé
Résumé: Des applications telles que la téléphonie mobile et la voix sur IP (VoIP) reposent sur des techniques de codage de la parole pour transmettre les données pertinentes pour le système auditif humain. Depuis les années 80, les codecs vocaux s'appuient sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms), telles que le suivi de la forme d'onde et la mise en forme du bruit. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme issues du traitement du signal, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons des sous-problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. Une méthode de compression cognitive de la parole entièrement basée sur des réseaux de neurones et qui délivre une qualité perceptuelle élevée avec une faible latence est démontrée avec l'approche proposée.
Doctorant: Reza Lotfidereshgi
Directeur de recherche: Roch Lefebvre
Codirecteur de recherche: Philippe Gournay
Président du jury: À être déterminé
Résumé: Des applications telles que la téléphonie mobile et la voix sur IP (VoIP) reposent sur des techniques de codage de la parole pour transmettre les données pertinentes pour le système auditif humain. Depuis les années 80, les codecs vocaux s'appuient sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms), telles que le suivi de la forme d'onde et la mise en forme du bruit. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme issues du traitement du signal, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons des sous-problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. Une méthode de compression cognitive de la parole entièrement basée sur des réseaux de neurones et qui délivre une qualité perceptuelle élevée avec une faible latence est démontrée avec l'approche proposée.