L&rsquo;&eacute;valuation &agrave; l&rsquo;&egrave;re de l&rsquo;IA&nbsp;: terreau de changements

À l'université, l'évaluation remplit de nombreux rôles : elle régule les apprentissages, informe les personnes enseignantes et certifie les personnes étudiantes. Les modalités évaluatives forment le terreau dans lequel ces rôles, tels autant de plantes nourricières, s'enracinent et se développent.

Or, l'émergence des outils d'intelligence artificielle générative (IAg) a considérablement brassé ce terreau, en rendant certaines des pratiques évaluatives les plus répandues difficiles à maintenir.

Comment recultiver ce terrain sans simplement replanter les mêmes espèces? L'activité Reprendre nos sens pour évaluer à l'ère de l'IA générative a permis d'y réfléchir le 17 février dernier, dans le cadre d'une journée dédiée à l’évaluation des apprentissages, tenue pendant le Mois de la pédagogie universitaire. Cet après-midi de réflexion collective s'est articulé en deux temps :

une série de présentations issues de réalités de terrains, où l’on sème des graines quant au futur de l'évaluation,
suivie d'une analyse par des « amies et amis critiques » qui, par leurs réflexions judicieuses, ont irrigué ce sol.

Détecter l’IA : une fausse piste?

L'après-midi a commencé avec l'intervention de Myriam Beaudet, bibliothécaire au Service des bibliothèques et archives, accompagnée d'Arianne Hillman et d'Alexandra Lèz, conseillères pédagogiques déléguées, respectivement au Centre universitaire de formation en environnement et développement durable et à l'École de gestion. Leur intervention portait sur l'efficacité des outils de détection des IAg. Les résultats préliminaires d'une première revue de la littérature ont permis d’affirmer que ces outils ne sont pas fiables.

Ainsi, une des études citées estimait que Turnitin, un outil de détection populaire, avait un taux de faux positifs de 25%. D’après une autre étude, les textes des personnes qui n'auraient pas l'anglais comme langue maternelle semblent également plus à risque d’être détectés comme ayant été générés par l’IAg.

L’IA comme copilote

La deuxième intervention a été présentée par Me Charles Gauthier, chargé de cours à la Faculté de droit, et Marianne Morrier, conseillère pédagogique déléguée. Ils ont présenté la transformation de l'évaluation d'une activité pédagogique en communication juridique. Cette transformation poursuivait deux objectifs. D’abord, il s'agissait de former les personnes étudiantes à un usage appliqué des IAg, en y intégrant des considérations propres à une utilisation responsable. Sur un plan plus large, elle visait à adapter la formation aux exigences du marché du travail.

Premièrement, les personnes chargées de cours rencontrent les étudiantes et étudiants pour clarifier leurs attentes concernant l'utilisation des IA dans ce cours. Après cette rencontre, les personnes étudiantes remplissent une déclaration d'intégrité.

Dans une seconde phase du semestre, lors d’un entretien de mi-session, elles doivent présenter une sélection représentative de leurs échanges avec l'IA relativement au travail à accomplir. Cet échantillon permet de mettre en lumière leurs raisonnements. En fin de cours, un complément diagnostique invite les personnes étudiantes à expliciter leur posture face à l'utilisation de l'IAg dans leur travail.

Des effets positifs ont été relevés sur la posture critique des personnes étudiantes, la compréhension des notions de cours, ainsi que le dialogue avec les personnes enseignantes.

Un produit de l’IA comme objet d’analyse critique

Charles Bourgeois, chargé de cours à la Faculté d'éducation et coordonnateur à la recherche au Centre d'études et de recherches sur les transitions et l'apprentissage (CÉRTA), a proposé un autre type de transformation : faire des extrants de l'IAg un objet d'analyse pédagogique dans le cadre de son cours sur les fondements de l'éducation.

Concrètement, les personnes étudiantes étaient invitées à générer, en classe et à l'aide de l'IAg, une séance d'enseignement inspirée d'un contexte de stage. Cette séance produite par la machine était ensuite analysée, selon les critères suivants :

la pertinence et la justesse des activités pédagogiques, en lien avec les notions vues dans le cours ;
la cohérence et la rigueur de l'argumentation justifiant le choix de chaque activité ;
les liens que les personnes étudiantes pouvaient établir avec les moments qu’elles avaient vécu en stages.

Les étudiantes et étudiants devaient ensuite proposer des améliorations à cette séance générée par la machine. Cette nouvelle évaluation avait pour but d'amener toutes les étudiantes et tous les étudiants à devenir des « engagés réflexifs ».

L’IA comme aide à la correction

Enfin, le professeur Raymond Panneton, du Département de génie mécanique de la Faculté de génie, a présenté ses expériences d'évaluation assistée par un système d'IAg. Dans le cadre de ses cours, de l'évaluation « de masse » était réalisée auprès de 140 étudiantes et étudiants. Cette tâche était lourde pour les deux auxiliaires d'enseignement, ce qui ne leur permettait pas d'offrir aux étudiantes et étudiants une rétroaction riche.

Il a ainsi conçu un système de rétroaction automatisée par IAg, reposant sur une grille descriptive appliquée au code informatique des étudiants. Après validation, le système s'est révélé suffisamment fiable pour être déployé : ses résultats s'avèrent statistiquement conformes à la notation des auxiliaires d'enseignement, avec un écart de moyenne inférieur à 1% à l'échelle de la classe.

En déléguant la correction à l'IAg, le professeur Panneton ne veut pas éliminer les auxiliaires d’enseignement, mais augmenter leur apport. Il souhaite que les auxiliaires puissent désormais concentrer leurs énergies sur une rétroaction qualitative et ciblée, ce qui constituerait une réelle valeur ajoutée pour l'apprentissage.

Rétroactions par des amis critiques

À la suite de ces présentations, nos amis critiques, les professeures Isabelle Nizet et Christina St-Onge, ainsi que le professeur Florian Meyer, se sont prêtés au jeu de répondre à trois grandes questions pour enrichir la réflexion collective.

Sur la transférabilité des pratiques présentées, les amis critiques ont souligné qu'il convient en premier lieu de préserver la plus-value pédagogique des évaluations face à l'IAg. Cette plus-value permettra de guider l'adoption de nouvelles pratiques évaluative pertinente. Ils ont également rappelé que la littératie associée au numérique n’est pas homogène : cela vaut autant pour les personnes étudiantes que pour le corps enseignant. Toute démarche de transformation doit en tenir compte.

Quant à d’éventuels angles non-couverts par les initiatives présentées, des enjeux ont été mis en lumière. D'une part, la validité des pratiques évaluatives : lorsque l'interprétation est déléguée à des outils d'IAg, comment garantir l'équité entre les personnes étudiantes, afin de favoriser leur réussite? D'autre part, la robustesse de ces pratiques a été contestée. Le déploiement à grande échelle des outils d'IAg au sein des évaluations ne nous rend-il pas dépendants de celles-ci? Enfin, le groupe a relevé que l'intégration de l'IAg tend à élever le niveau taxonomique des compétences demandées au sens de la taxonomie de Bloom. Les tâches cognitives attendues relèvent désormais davantage de l'analyse, de la critique ou de la création. Cette hausse des attentes soulève des questions relatives à la calibration des évaluations proposées aux personnes étudiantes.

Relativement à la question du sens à donner aux évaluations, les échanges ont convergé vers une idée : celle de la coresponsabilité. Transformer la relation des personnes étudiantes et enseignantes à l'évaluation implique de partager le fardeau évaluatif. Une telle démarche gagne à être ancrée dans l'engagement des personnes étudiantes pour des apprentissages signifiants. Cela passe aussi par une réflexion sur les finalités de l'évaluation, car utiliser l'IAg pour obtenir une bonne note et l'utiliser pour apprendre réellement ne sont pas la même chose.

Les prochains petits pas?

On a finalement demandé aux amis critiques en quoi est-ce que les pratiques présentées permettaient de réfléchir l’évolution de l’évaluation des apprentissages à l’Université de Sherbrooke? Voici les pistes d'action concrètes qu’ils ont soulevées:

Déterminer en coresponsabilité quelles sont les compétences fondamentales à développer et à préserver.
Explorer d'autres modalités évaluatives que l'écrit, mais qui nous permettent tout de même d'avoir accès à des preuves d'apprentissage. Il importe de rester vigilant face aux enjeux de neurodiversité, en particulier lorsque l'oralité est choisie comme modalité alternative.
Continuer de cartographier les problématiques en lien avec l'IAg pour orienter la gouvernance des personnes enseignantes dans leurs prochaines actions et poursuivre la veille sur ce qui se fait ailleurs.
Établir une politique de sobriété numérique pour déterminer quand et comment l'usage des IAg est acceptable.
Les amis critiques ont par ailleurs salué l'approche de l'UdeS, qui articule à la fois des initiatives émergentes du terrain et une réflexion portée par les instances décisionnelles. Cette double dynamique, ascendante et descendante, constitue une richesse et favorise un foisonnement d'idées dont l'ensemble de la communauté universitaire peut tirer parti.

Évaluer les compétences, pas les performances

Pour clore cet après-midi, le professeur émérite Jacques Tardif a partagé ses réflexions sur ce qui avait été discuté tout au long de la journée.

Il nous rappelait que l'IAg met en lumière les faiblesses des évaluations actuelles. En s'appuyant sur la notion d'agentivité contextuelle, il souhaiterait que soit évaluée la capacité des personnes étudiantes, futures professionnelles, à mobiliser leurs savoirs de manière autonome et adaptée, dans des situations complexes. Il met en exergue le fossé entre cet idéal et ce qui est actuellement réalisé dans beaucoup d'évaluations, où l'on se contente de demander une simple restitution des connaissances. Expert en évaluation des compétences, il estime que le développement progressif des compétences en contexte authentique pourrait guider les transformations nécessaires pour tenir compte de l'IAg dans nos évaluations.

Conclusion : pour en finir avec la monoculture évaluative?

Cette activité a permis de faire ressortir la manière organique dont certains acteurs et actrices ont travaillé à offrir un enseignement riche de sens. Par leur intérêt et leur passion pour l’enseignement, ils ont su imaginer un futur où l'IAg est intégrée au processus évaluatif.

Ces initiatives sortent des monocultures évaluatives traditionnelles où les outils de détection des IAg apparaissent de plus en plus comme des herbicides non sélectifs. La question se pose maintenant, comment cultiver différemment à grande échelle? Comment ces graines d’inspiration pourront-elles s'enraciner dans les programmes où elles ont germé, au-delà des cours qui les ont vus naître?

Témoignage étudiant

L’évaluation offerte par une personne enseignante fait partie d’un dialogue plus large que je recherche pendant mes études. Selon moi, cette relation prof-élève est essentielle à l’appréciation globale de mon parcours académique.

Nicolas, étudiant à la maîtrise en études politiques appliquées

L’évaluation à l’ère de l’IA : terreau de changements