Des grands modèles de langage (LLM) aux cascades informationnelles : annoter, mesurer et détecter les dynamiques médiatiques à grande échelle

Date :: Cet événement est passé.
Type :: Conférences et séminaires
Lieu :: Faculté des lettres et sciences humaines de l'Université de Sherbrooke, local A10-2034

Description :

Les intelligences artificielles génératives (de type ChatGPT) ne servent pas qu’à rédiger du texte. Utilisées de manière méthodique, elles sont également des outils de codage capables d’appliquer les catégories d’analyse (cadres médiatiques, types de messagers, événements déclencheurs, tonalités, etc.) à des corpus de très grande taille.

LLM Tool, une plateforme ouverte développée par Antoine Lemor, permet cette approche en trois étapes : le LLM annote un échantillon selon les définitions fournies par le chercheur ou la chercheuse, des codeurs humains valident les résultats, puis des modèles spécialisés plus légers sont entraînés pour traiter l’ensemble du corpus.

L’auteur présentera cette approche et un exemple appliqué à 266 000 articles de 20 journaux canadiens (1978-2024) ayant produit 9,2 millions d’annotations au niveau de la phrase sur 65 dimensions, avec une fiabilité comparable au codage manuel (beaucoup plus coûteux). À partir de cette base, un second système repère automatiquement les « cascades médiatiques » : ces moments où la couverture d’un enjeu climatique s’emballe, où de nouveaux journalistes s’emparent du sujet, où les angles de traitement convergent et où le discours s’homogénéise d’un média à l’autre. L’approche est directement transférable à d’autres corpus et objets de recherche en sciences sociales.

À propos du conférencier

Antoine Lemor est chercheur postdoctoral au Centre interuniversitaire de recherche sur la science et la technologie (CIRST) et au Réseau francophone international en conseil scientifique (RFICS) à l’Université de Sherbrooke.

Contacter une personne responsable