Aller au contenu

Sous-ensemble de la BDTS disponible sur Internet

Responsables

  • Hélène Cajolet-Laganière
  • Pierre Martel

Assistant et assistante de recherche

  • Anne Moreau
  • Steeve Tremblay

Ce sous-ensemble de la BDTS regroupe des textes techniques, scientifiques, sociopolitiques, administratifs, journalistiques, littéraires, environnementaux et des transcriptions de langue orale.

Il comprend quelque deux millions d'occurrences (61 843 formes) tirées de 1054 textes différents.

Composition

Il est composé de huit sous-ensembles d'environ 250 000 mots chacun et traités selon une norme commune, ce qui rend leurs données comparables; plusieurs d'entre eux sont en outre lemmatisés. Ils sont représentatifs de divers domaines, types de discours et niveaux de langue suivants :

1. Textes techniques : langue spécialisée

Corpus :constitué par Normand Maillet (dans le cadre d'une thèse de doctorat)
Composition :100 textes extraits de rapports, guides, manuels de formation, normes, procédures, etc.
Domaines :aluminium, environnement, mines, pâtes et papier, télécommunication, transport, hydro-électricité, informatique, et autres.

2. Textes scientifiques : langue spécialisée

Corpus :constitué par Linda Pépin (dans le cadre d'une thèse de doctorat)
Composition :100 textes extraits de mémoires, de thèses, d'articles scientifiques et de rapports de recherche.
Domaines :biologie, chimie, physique, génie chimique et génie mécanique.

3. Textes sociopolitiques : langue générale

Corpus :constitué par Nadine Vincent (dans le cadre d'une thèse de doctorat)
Composition :100 textes de mémoires sélectionnés à partir des 583 mémoires présentés à la Commission Bélanger-Campeau sur l'avenir politique et constitutionnel du Québec.
Domaines :mémoires ou extraits de mémoires de la Commission Bélanger-Campeau.

4. Textes administratifs : langue générale

Composition :54 textes
Domaines :débats de l'Assemblée nationale, conventions collectives, textes juridiques, textes du Bureau d'audiences publiques sur l'environnement (BAPE), rapports du Vérificateur général du Québec, etc.

5. Textes journalistiques : langue générale

Composition :75 textes tirés du Soleil
 63 textes tirés de La Presse
 57 textes tirés de Québec Sciences
 55 textes tirés du Devoir
 52 textes tirés de L'actualité
 17 textes tirés d'Interface

6. Textes littéraires : langue générale

Composition :25 textes
Domaines :romans, chansons, essais, textes de poésie, pièces de théâtre, etc.

7. Textes environnementaux : langue générale

Corpus :constitué par Steeve Tremblay (dans le cadre d'un mémoire de maîtrise)
Composition :Le corpus contient environ 107 textes répartis en deux grands sous-ensembles. Le premier, appelé MENVIQ, contient des études rédigées par les spécialistes du ministère de l'Environnement du Québec. Les textes de ce sous-corpus abordent différents thèmes dont, entre autres, les pluies acides, la qualité de l'eau et la teneur en métaux des cours d'eaux du Québec. Le second sous-ensemble, nommé MÉDIAS, contient des textes de sources variés appartenant à différents médias écrits québécois, c'est-à-dire des extraits de journaux et des textes de vulgarisation scientifique.
Domaines :textes divers du ministère de l'Environnement du Québec, journaux, périodiques et magazines spécialisés dans le domaine, etc.

8. Transcriptions de langue orale : langue générale

Corpus :constitué par Gérald Charland (dans le cadre d'une thèse de doctorat)
Composition :quelque 30 enquêtes sociolinguistiques
Domaines :enquêtes sociolinguistiques effectuées dans la région des Bois-Francs.