Aller au contenu

Stabilité du gradient dans les réseaux de neurones récurrents, à décharges et conventionnels

Date :
Cet événement est passé.
Type :
Soutenance de thèse
Lieu :
Par la plateforme Teams

Description :
Doctorant: Luca Celotti Herranz

Directeur de recherche: Jean Rouat

Président du jury : À être confirmé

Résumé : Les percées en intelligence artificielle repoussent les limites de ce qui est possible dans des domaines tels que la santé, la finance et les voitures autonomes, révolutionnant ainsi notre façon de vivre et de travailler. Aucune de ces avancées ne serait concevable sans une compréhension théorique méticuleuse des subtilités de l'apprentissage, de ce qu'il implique et de comment il se déroule. Dans le domaine de l'IA, l'apprentissage est facilité par des gradients, guidant les réseaux neuronaux vers des solutions probables pour les tâches à accomplir. Cependant, un défi bien connu émerge: à mesure que les réseaux neuronaux augmentent en taille, les gradients ont tendance à exploser de manière exponentielle, ce qui rend l'apprentissage plus difficile. Le sujet de cette thèse est le raffinement de techniques bien connues pour éviter l'explosion de gradients dans les architectures neuronales récurrentes, améliorant ainsi leur capacité de généralisation. Malgré une longue lignée de recherche, des techniques de stabilité bien connues n'ont jamais été appliquées pour stabiliser des architectures biologiquement plausibles. En fait, elles nécessitent des gradients approximatifs appelés gradients de substitution (SG) à entraîner par descente de gradient, et il n'existe aucun critère clair pour le choix du SG. Nous démontrons que le choix d'une forme de SG qui stabilise l'amplitude du gradient au fil du temps entraîne une meilleure généralisation, servant de critère précieux pour la sélection du SG. Dans le but de généraliser ce résultat, nous avons observé une incompréhension dans la littérature concernant l'interaction entre la profondeur et le temps dans les réseaux récurrents profonds ($d$-RNN). En réalité, l'application d'initialisations classiques à propagation avant aux réseaux récurrents produit un gradient qui croît comme un coefficient binomial. Bien que cela réussisse à neutraliser les sources multiplicatives d'explosion exponentielle du gradient, cela néglige une source additive. Nous prouvons mathématiquement et expérimentalement que pondérer par un demi les composantes temporelles et de profondeur du gradient, au lieu de par un, corrige une telle explosion. Enfin, nous proposons une méthode pour pré-entraîner une large famille de $d$-RNN pour la stabilité basée sur cette analyse théorique. Notre méthode de pré-entraînement dispense les praticiens de développer une analyse mathématique spécifique à l'architecture. Cette thèse étend non seulement l'application des techniques de stabilité à des domaines non conventionnels, mais résout également, d'une certaine manière, une question vieille de trois décennies concernant la caractérisation de l'explosion de gradient dans les d-RNN.