Pratiques contemporaines de la textualité numérique : observation, description et analyse d’un grand corpus de SMS.

Résumé : L’objectif du projet « Pratiques contemporaines de la textualité numérique : observation, description et analyse d’un grand corpus de SMS » est d’effectuer des recherches pluridisciplinaires sur un corpus de 88 683 SMS authentiques épurés en langue française, recueillis en 2011, dans le cadre du programme sud4science Languedoc-Roussillon. Mutation des pratiques scripturales en communication électronique médiée (http://www.sud4science.org), lui-même s’insérant dans un vaste projet international intitulé sms4science (http://www.sms4science.org, Fairon, et al., 2006). D’une part, nous cherchons, grâce à une approche pluridisciplinaire, à modéliser les usages linguistiques et discursifs propres aux SMS, et à les mettre en relation avec les contraintes et les fonctionnalités numériques spécifiques de ce support. Cette analyse nous permettra notamment de mettre à jour des pratiques – scripturales et langagières – générationnelles, groupales, socioculturelles, affectives, etc. Nous montrerons, entre autres, les spécificités énonciatives, morphosyntaxiques, lexicales, sémantiques et pragmatiques de l’écriture SMS (eSMS, Panckhurst 2009). D’autre part, notre objectif est de mettre à la disposition de la communauté scientifique, et plus largement, de tous ceux qui sont intéressés par les mutations sociales, comme les responsables des politiques publiques en matière d’éducation et d’intégration sociale, un corpus organisé en une base de données directement consultable. Dans ce but, le corpus de SMS « bruts » doit obligatoirement être anonymisé, comme suit : SMS brut : Coco est pas la ! Éva non plus ! Tanpis ! Lol J'irai aux journée du patrimoine ! Éva m'a dit que tu venais cette semaine peut etre ! Bisous ! ! SMS anonymisé : est pas la ! non plus ! Tanpis ! Lol J'irai aux journée du patrimoine ! m'a dit que tu venais cette semaine peut etre ! Bisous ! ! Du SMS « brut » au SMS anonymisé. (Les chiffres renvoient au nombre de caractères du prénom dans le SMS brut.) Onze étiquettes sont utilisées pour cette phase : Prénom (PRE), Nom (NOM), Surnom (SUR), Adresse (ADR), Lieu (LIE), Numéro de téléphone (TEL), Code (COD), URL (URL), Marque (MAR), Courriel (MEL), Autre. Par la suite, le corpus pourra également être partiellement transcodé en français « standardisé ». Le transcodage est utile pour le grand public, ou pour ceux qui veulent lire et comparer rapidement les SMS bruts et transcodés : SMS transcodé : est pas là ! non plus ! Tant pis ! Lol. J'irai aux journées du patrimoine ! m'a dit que tu venais cette semaine peut-être ! Bisous ! ! Un exemple de SMS transcodé Enfin, une phase d’annotation optionnelle prévoit l’utilisation de huit étiquettes : ABSence, BINettes, DIVers, GRAmmaire, LANgage, MODification, ORThographe, TYPographie. Quatre de ces étiquettes sont utilisées dans le tableau ci-dessous (un double étiquetage peut être employé en cas d’ambiguïté). De cette manière, des chercheurs, des enseignants, des personnes travaillant dans des secteurs socioculturels divers, etc. pourront effectuer des fouilles ultérieures (semi-) automatisées afin de recueillir de l’information pertinente relative à leurs spécialités : SMS annoté : est pas là ! non plus ! Tant pis ! Lol . J'irai aux journées du patrimoine ! m'a dit que tu venais cette semaine peut-être ! Bisous ! ! Un exemple de SMS annoté (étiquettes indiquées en gras) Nous présentons les étapes suivantes dans la synthèse de notre recherche : acquisition préliminaire des données dans le cadre du projet sud4science LR, anonymisation, transcodage, analyses (socio)linguistiques, et traitement ultérieur et diffusion du corpus.
Type de document :
Rapport
[Rapport de recherche] Remis à la D.G.L.F.L.F. 2013, 47 p. (incluant les annexes)
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01487040
Contributeur : Rachel Panckhurst <>
Soumis le : vendredi 10 mars 2017 - 18:01:04
Dernière modification le : samedi 11 mars 2017 - 01:09:28

Identifiants

  • HAL Id : hal-01487040, version 1

Citation

Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche, et al.. Pratiques contemporaines de la textualité numérique : observation, description et analyse d’un grand corpus de SMS.. [Rapport de recherche] Remis à la D.G.L.F.L.F. 2013, 47 p. (incluant les annexes). <hal-01487040>

Partager

Métriques

Consultations de la notice

54