Index de mots clés

Corpus oraux

  • Martine ADDA-DECKER, Cécile FOUGERON, Cédric GENDROT, Lori LAMEL & Elisabeth DELAIS-ROUSSARIE (Paris)
    La liaison dans la parole spontanée familière : une étude sur grand corpus
    (French ‘liaison’ in casually spoken French, as investigated in a large corpus of casual French speech)
    2012, Vol. XVII-1, pp. 113-128

    Cet article porte sur la liaison dans un parler spontané familier. Partant du constat que, dans la parole familière, les prononciations s'écartent souvent de leur forme canonique du fait d'un taux de réduction temporelle élevé, nous faisons l'hypothèse que le nombre de liaisons réalisées se trouve diminué dans ce type de parole. Notre étude repose sur une exploration du corpus NCCFr (Nijmegen Corpus of Casual French) à partir de techniques automatiques comme l'alignement automatique. Les taux de réalisation sont mesurés pour les consonnes de liaison les plus fréquentes (/z/, /n/ et /t/) dans des sites de liaison potentielle classés selon que la liaison y est obligatoire, facultative ou interdite. Nous proposons également une étude sur les relations entre le débit de parole et la réalisation des liaisons.


  • Martine ADDA-DECKER (Paris)
    Corpus pour la transcription automatique de l'oral
    (Corpus for automatic transcription of spoken texts)
    2007, Vol. XII-1, pp. 71-84

    Cette contribution vise à illustrer la réalisation et l'utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s'appuyant largement sur une modélisation statistique, s'accompagnent naturellement de production de corpus écrits et oraux transcrits ainsi que d'outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd'hui un déploiement vers le traitement automatique de l'oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux.


  • Olivier BAUDE (Orléans)
    Aspects juridiques et éthiques de la conservation et de la diffusion des corpus oraux
    (Legal and ethical aspects of conserving and diffusing corpora of spoken texts)
    2007, Vol. XII-1, pp. 85-97

    La numérisation des corpus de données sonores et multimodales ouvre de larges perspectives pour les sciences du langage. Toutefois, la conservation et l'exploitation de ces corpus oraux posent de nouveaux problèmes éthiques et juridiques que la communauté scientifique doit prendre en compte. Cet article présente les résultats d'un groupe de travail interdisciplinaire qui a rédigé un Guide des bonnes pratiques pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux.


  • Philippe BOULA DE MAREÜIL, Albert RILLIARD & Alexandre ALLAUZEN (Paris Sud)
    Variation diachronique dans la prosodie du style journalistique : le cas de l'accent initial
    (Diachronic variation in the prosody of French news announcer speech: changes in word initial accent)
    2012, Vol. XVII-1, pp. 97-111

    Cette étude traite de l'évolution de la prosodie dans le style journalistique français, à partir de l'analyse acoustique d'archives audiovisuelles remontant aux années 1940. Un corpus d'une dizaine d'heures de parole a été examiné automatiquement, et nous nous sommes concentrés sur l'accent initial, qui peut donner une impression de style emphatique. Des mesures objectives suggèrent qu'en un demi-siècle les traits suivants ont diminué : la hauteur de voix des journalistes, la montée mélodique associée à l'accent initial et la durée vocalique caractérisant un accent initial emphatique. Les attaques de syllabes initiales accentuées, quant à elles, se sont allongées. Ce résultat suggère que les corrélats de durée de l'accent initial ont changé au cours du temps, dans le style journalistique français.


  • Paul CAPPEAU & Françoise GADET (Poitiers / Paris Ouest)
    L'exploitation sociolinguistique des grands corpus. Maître-mot et pierre philosophale
    (The sociolinguistic exploitation of large corpora. Key-word and stone of wisdom)
    2007, Vol. XII-1, pp. 99-110

    Le désir d'appuyer le travail des sciences du langage sur de larges collections de données orales (« grands corpus ») est, de nos jours, largement partagé par les linguistes. Au moment où de tels outils se multiplient pour le français, il importe d'être sensible à tous les facteurs qui en garantissent la fiabilité, lors des différentes étapes de l'obtention des données : mise au point sur le terme de « corpus », réflexion sur le rapport au terrain et à l'oralité, sur la notion de représentativité (genres et/ou identités des locuteurs), pratiques de sollicitation de données, et enfin transcription.


  • Sylvain DETEY & Isabelle RACINE (Tokyo, Japon / Genève, Suisse)
    Les apprenants de français face aux normes de prononciation : quelle(s) entrée(s) pour quelle(s) sortie(s) ?
    (Learners of French and pronunciation norms in the FL : what input do we need to reach what results)
    2012, Vol. XVII-1, pp. 81-96

    En didactique du français, les développements de la linguistique de corpus ont contribué au renouvellement de la réflexion sur les normes pédagogiques et sur la place de la variation dans l'enseignement. Nous nous concentrons ici sur la dimension phonético-phonologique, et, après un bref regard sur les modèles de prononciation, nous nous penchons sur l'impact des descriptions sociolinguistiques sur la valorisation des variétés en didactique du FLE. Nous reprenons ensuite la problématique des 'erreurs' et des 'accents' chez les non-natifs afin de souligner la nécessité d'études à grande échelle semblables à celles entreprises auprès de natifs. Nous introduisons ainsi le projet InterPhonologie du français contemporain, qui interroge la notion de norme non native, tant dans une perspective théorique qu'applicative.


  • Jacques DURAND & Anne PRZEWOZNY (Toulouse)
    La phonologie de l’'anglais contemporain : usages, variétés et structure
    (Phonology of Contemporary English: usage, varieties and structures)
    2012, Vol. XVII-1, pp. 25-37

    Le projet PAC (Phonologie de l'Anglais Contemporain : usages, variétés, structure) se propose de fournir un portrait précis de l'anglais oral dans son unité et sa diversité géographique, sociale et stylistique. Fondé sur des critères laboviens, le projet permet de décrire les accents rhotiques et non-rhotiques de l'anglais, les variétés standard traditionnelles comme les variétés postcoloniales plus récentes. Le corpus constitué permet aux chercheurs d'analyser et de comparer des caractéristiques intervariétales telles que la rhoticité ou des phénomènes plus spécifiques comme la longueur vocalique en anglais australien ou la rhoticité variable en Nouvelle-Zélande. Le programme collaboratif LVTI, issu de la méthodologie des projets PAC et PFC, permet une enquête sociolinguistique interdisciplinaire des grands centres urbains que sont Manchester et Toulouse.


  • Julien EYCHENNE & Bernard LAKS (Groningue, Pays-Bas / Paris Ouest)
    Le programme Phonologie du français contemporain : bilan et perspectives
    (The Phonology of Contemporary French program: results and perspective)
    2012, Vol. XVII-1, pp. 7-24

    Cet article offre un panorama des travaux menés dans le cadre du programme de recherche Phonologie du français contemporain : usages, variétés, structure (PFC). Nous situons tout d'abord ce programme dans le paysage de la phonologie du français et des études sur corpus et montrons en quoi sa méthodologie systématique permet d'offrir un renouvellement des descriptions disponibles. Après avoir exposé la méthodologie du projet et les protocoles de codage élaborés pour l'analyse du schwa et de la liaison, nous soulignons l'apport de ce programme, à la fois d'un point de vue descriptif (notamment pour les variétés non standard) mais aussi théorique, en présentant quelques résultats obtenus du point de vue de l'analyse de la liaison et du rôle de la fréquence d'usage.


  • Françoise GADET, Ralph LUDWIG, Lorenza MONDADA, Stefan PFÄNDER & Anne-Catherine SIMON (Paris Ouest / Halle, Allemagne / Bâle, Suisse / Fribourg, Allemagne / Louvain-la-Neuve, Belgique)
    Un grand corpus de français parlé : le CIEL-F. Choix épistémologiques et réalisations empiriques
    (A large corpus of spoken French : CIEL-F. Epistemological choices and empirical outcome)
    2012, Vol. XVII-1, pp. 39-54

    Cet article présente d'un point de vue épistémologique et empirique le travail de constitution du Corpus International Ecologique de la Langue Française, grand corpus de français parlé bientôt disponible sur la toile. On y explique la réflexion ayant guidé le recueil des données (approche écologique, comparabilité de zones de la francophonie et situations de communication) et les choix effectués (aires communicatives et types d'activités documentés) en vue d'analyses relevant de domaines diversifiés (variation, interaction, multimodalité, français en contact, syntaxe orale), pour tenter de combler plusieurs lacunes des corpus oraux actuels. On aborde également la question de la mise en réseau des experts, des problèmes liés aux différents terrains, ainsi que de la standardisation, l'archivage et la diffusion des données collectées (enregistrements audio et vidéo, transcriptions, métadonnées), avant de présenter quelques exemples d'analyses comparées.


  • Michèle OLIVIÉRI, Sylvain CASAGRANDE, Guylaine BRUN-TRIGAUD & Pierre-Aurélien GEORGES (Université Nice Sophia Antipolis / CNRS / Université Côte d'Azur)
    Le Thesaurus Occitan dans tous ses états
    (All about the Thesaurus occitan)
    2017, Vol. XXII-1, pp. 89-102

    Le Thesaurus Occitan (THESOC) est une base de données multimédia qui vise à rassembler toutes les données dialectales recueillies sous forme orale en domaine occitan. Il est constitué de deux parties, l'une dédiée au lexique, l'autre composée de phrases et consacrée à la syntaxe. Divers outils et fonctionnalités sont associés aux données afin de permettre aux chercheurs de constituer des corpus de travail et d'émettre et de vérifier des hypothèses. Cet article a pour objectif de présenter les modalités de construction et de consultation duTHESOC, dans ses développements les plus récents.


  • Shana POPLACK (Ottawa, Canada)
    Le corpus du français parlé à Ottawa-Hull
    (The corpus of spoken French of Ottawa-Hull)
    1996, Vol. I-2, pp. 95-97
  • Louise PÉRONNET (Moncton, Canada)
    Enquêtes linguistiques sur le français parlé en Acadie
    (Linguistic research on French spoken in Acadia)
    1996, Vol. I-2, pp. 98-99
  • André VALLI & Jean VÉRONIS (Aix-en-Provence)
    Etiquetage grammatical des corpus de parole : problèmes et perspectives
    (Grammatical labeling of corpora of spoken language: problems and perspectives)
    1999, Vol. IV-2, pp. 113-133

    Les systèmes de transcription qui proposent de reproduire certains phénomènes de l'oral, comme les bribes, les hésitations, les répétitions, et qui n'utilisent pas de ponctuation peuvent laisser présager de grandes difficultés pour l'étiquetage grammatical de corpus transcrits. Le développement d'étiqueteurs directement conçus pour l'oral est souhaitable, mais ne peut constituer qu'une entreprise à long terme. Nous relatons dans cet article une expérience d'étiquetage d'un corpus oral à l'aide d'un étiqueteur conçu pour l'écrit, complété par des programmes de pré-édition et de post-édition adéquats, qui, contre toute attente, permet d'obtenir d'excellents résultats sur l'oral, presque comparables à ceux obtenus sur l'écrit. Ces résultats permettent d'envisager la constitution rapide de grands corpus oraux étiquetés pour le français.