Corpus / construção

  • Manuel BARBERA (Turin, Italie)
    Les lexies complexes et leur annotation morphosyntaxique dans le Corpus Taurinense
    (Complex lexical units and their morphosyntactic treatment in the Corpus Taurinense)
    2000, Vol. V-2, pp. 57-70

    Le Corpus Taurinense (CT) est la version morphologiquement annotée d'ItalAnt Corpus, un corpus électronique de textes d'ancien italien (écrits entre 1251 et 1300). Nous essayons ici de décrire l'approche suivie dans le CT pour l'annotation des lexies complexes (MWUs 'multiword units'). La lexie complexe dans notre travail est un groupe de deux mots graphiques ou plus qui reçoit (aussi) une étiquette de partie du discours d'ensemble parce que ce groupe de mots est en relation paradigmatique avec une autre unité lexicale de la même partie du discours.Notre étiquetage de parties du discours confirme que la majorité des conjonctions composées de l'italien moderne n'était pas lexicalisée à cette époque. L'ordre des composants est déjà celui de l'italien moderne mais ces conjonctions peuvent encore être interrompues par des éléments occasionnels.


  • Rabia BELRHALI (INPG-Grenoble)
    BdPholex : une base de données phonétiques et lexicales du français parlé
    (BdPholex: a phonetical and lexical database of spoken French)
    1999, Vol. IV-1, pp. 75-78
  • Gabriel BERGOUNIOUX (Orléans)
    Etude socio-linguistique sur Orléans (1966-1970)
    (The Sociolinguistic study on Orleans (1966-1970))
    1996, Vol. I-2, pp. 87-88
  • Mireille BILGER (Perpignan)
    Corpus de portugais et d'espagnol
    1996, Vol. I-2, pp. 124-130
  • Christian BOITET (Grenoble 1)
    Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système
    (Corpus for the Machine Translation: types, sizes and connected problems, in relation to use and system type)
    2007, Vol. XII-1, pp. 25-38

    Les corpus utilisés en TA de l'écrit et de l'oral ont évolué, depuis les suites de test et les corpus d'essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d'annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique », statistique ou fondée sur les exemples. La représentation des textes et l'interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d'unifier et de mutualiser leur construction et leur gestion.


  • Louis-Jean BOË (Grenoble)
    La matérialité des structures sonores du langage
    (The material aspect of sound structures in language)
    1996, Vol. I-1, pp. 41-54

    Les grandes tendances des systèmes phonologiques des langues du monde relèvent-elles de contraintes de production et de perception ? Cette question s'inscrit dans le cadre d'une linguistique "orientée substance" proposée simultanément par Lindblom et Stevens en 1972. Sont présentées et discutées ici plusieurs tendances universelles des systèmes phonologiques qui pourraient être expliquées par la matérialité des structures sonores et resituées dans le cadre de l'ontogenèse.La matérialité et la prédiction des systèmes vocaliques et syllabiques nous semble un espace privilégié pour faire un état de la question à partir de travaux menés dans ce domaine à l'ICP à la lumière de certaines tendances universelles.


  • Veerle BROSENS (Louvain, Belgique)
    Les projets ELILAP et LANCOM
    (The ELILAP and LANCOM projects)
    1999, Vol. IV-1, pp. 89-95
  • Henri BÉJOINT (Lyon 2)
    Informatique et lexicographie de corpus : les nouveaux dictionnaires
    (Computer science and corpus lexicography: the new dictionaries)
    2007, Vol. XII-1, pp. 7-23

    L'utilisation de l'informatique est l'événement le plus important de l'histoire de la lexicographie des cinquante dernières années. Elle a eu une influence sur la présentation des dictionnaires, que l'on trouve désormais sous diverses formes numérisées, mais surtout elle a profondément modifié les conditions de travail du lexicographe. L'informatique a permis d'augmenter considérablement la taille des corpus que les lexicographes ont toujours utilisés, et en anglais on dispose maintenant de corpus qui contiennent plusieurs centaines de millions de mots. Il s'en est suivi une transformation du texte du dictionnaire, qui est devenu plus représentatif de l'usage commun, et mieux adapté aux tâches d'encodage.


  • Nicoletta CALZOLARI (CNR-Pise, Italie)
    Standards for Linguistic Resources in Europe : the LE-EAGLES Project
    1999, Vol. IV-1, pp. 57-64

    L'extension rapide de ressources linguistiques informatisées a très vite soulevé le problème de leur standardisation pour une plus large et une meilleure utilisation, en même temps qu'apparaissait la nécessité d'évaluer les divers outils créés en vue de leur exploitation. A l'initiative de la Commission Européenne, ces questions ont fait l'objet de recherches et de travaux, dont le but était de proposer des standards valables pour l'ensemble de l'Europe - parmi lesquels le projet EAGLES ici présenté.


  • Bart DEFRANCQ (Gand, Belgique)
    Recherches sur corpus à Gand
    (Corpus research at Ghent)
    1996, Vol. I-2, pp. 93-94
  • Norbert DITTMAR (Berlin, Allemagne)
    Corpus de langue allemande écrite et parlée. Documentation sur les données techniques et organisationnelles
    (Corpora of spoken and written German. Documentation on technical and organizational data)
    1996, Vol. I-2, pp. 135-139
  • Marie-Laure ELALOUF (Cergy-Pontoise)
    Construction et exploitation de corpus d'écrits scolaires
    (The building-up and exploitation of corpora of texts written in schools)
    2007, Vol. XII-1, pp. 53-70

    La première partie de l'article expose les questions méthodologiques qui ont présidé à la constitution et à la transcription d'un grand corpus de textes scolaires, avec leurs contextes d'enseignement. Dans la deuxième partie de l'article sont présentées les interrogations épistémologiques qui ont orienté une deuxième recherche : sur la définition des genres scolaires, d'un corpus, et d'un contexte, et de la nécessaire mise en relation de ces trois éléments. La description d'essais tentés à l'aide de logiciels d'analyse sur des corpus scolaires a priori non conformes aux normes génériques et orthographiques débouche sur des pistes d'utilisation sériées et accompagnées de démarches qualitatives.


  • Gunnel ENGWALL (Stockholm, Suède)
    Les corpus de français établis en Suède
    (French corpora made in Sweden)
    1996, Vol. I-2, pp. 89-90
  • Michel FRANCARD (Louvain-la-Neuve, Belgique)
    La banque de données VALIBEL
    (The VALIBEL database)
    1996, Vol. I-2, pp. 91-92
  • Benoît HABERT (Paris X-Nanterre)
    Outiller la linguistique : de l'emprunt de techniques aux rencontres de savoirs
    (To tool up linguistics: from borrowing techniques to the meeting of knowledge)
    2004, Vol. IX-1, pp. 5-24

    Une bonne partie de la recherche linguistique ne suppose pas d'instrument particulier. Les travaux en linguistique ont cependant à gagner à intégrer les outils fournis par le TAL (Traitement automatique des langues) et par l'informatique de manière plus large. L'apport sera d'autant plus fructueux si l'on ne se cantonne pas à des emprunts de ressources ou de techniques et si s'approfondit le dialogue entre les savoirs de chaque discipline


  • Marie-Christine HAZAËL-MASSIEUX (Aix-en-Provence)
    Les corpus créoles
    (Creole corpora)
    1996, Vol. I-2, pp. 103-110
  • Stig JOHANSSON (Oslo, Norvège)
    Corpora for English language research
    1996, Vol. I-2, pp. 116-123
  • J.G. KRUYT (Leyde, Pays-Bas)
    Towards the Integrated Language Database of 8th-21st Century Dutch
    2000, Vol. V-2, pp. 33-44

    Ces dix dernières années, la technologie a eu un impact assez important sur les activités de l'Institut Néerlandais de Lexicologie. Le résultat est entre autres trois dictionnaires électroniques qui couvrent la période entre 1200 et 1976 et quelques corpus de textes historiques et actuels lemmatisés et avec étiquetage morpho-syntaxique. Depuis que trois bases de données du néerlandais moderne sont rendues accessible sur le net en 1994, elles ne sont pas uniquement utilisées pour la lexicologie mais aussi pour plusieurs autres objectifs. La technologie avancée aura de plus en plus d'importance et notamment sur un projet récemment initié : la Database Intégrée de la Langue Néerlandaise allant du 8ème au 21ème siècle. Les dictionnaires, les lexiques et une base de données diachronique seront liés d'une façon significative. Des parties de cette database seront liées avec des data comparables des collections d'autres instituts. Ainsi, nous créons un instrument de recherche supra-institutionelle qui donnera des nouvelles opportunités pour la recherche innovante.


  • Suzanne LAFAGE (Paris 3)
    La banque de données IFA. Inventaire des particularités lexicales du français en Afrique noire
    (The IFA database. Inventory of lexical varieties in African French)
    1996, Vol. I-2, pp. 100-102
  • Jon LANDABURU (CNRS-Célia)
    La construction d'une base de données linguistiques pour les langues amérindiennes de Colombie : atlas, glossaires, sonothèques
    (Building a linguistic database for the Indo-american languages of Columbia: maps, glossaries, sound archives)
    1997, Vol. II-1, pp. 83-90
  • Ann LAWSON (IDS-Mannheim, Allemagne)
    Corpus Linguistics at the Institut für deutsche Sprache
    1999, Vol. IV-1, pp. 79-82
  • Thomas Hun-tak LEE (Hong-Kong)
    CANCORP - The Hong Kong Cantonese Child Language Corpus
    1999, Vol. IV-1, pp. 21-30

    On se propose dans ce texte de présenter le CANCORP (The Hong-Kong Cantonese Child Language) en cours de construction dans l'esprit du CHILDES (The Child Language Data Exchange System) de Mac Whinney & Snow, 1985. Après avoir rapidement décrit le contenu du CANCORP, on présentera les problèmes techniques que pose la transcription de ces enregistrements d'enfants en caractères chinois et en caractères romanisés, puis on dressera un bref bilan des ressources qu'offre le CANCORP pour l'étude des tout premiers développements du langage.


  • Isabelle LEROY-TURCAN (Lyon 3)
    La Base ACADEMIE et son hypertexte : les huit éditions du Dictionnaire de l'Académie française (1694-1935) et les données associées à chaque édition
    (The ACADEMIE base and its hypertexte: the eight editions of the Dictionnaire de l'Académie française (1694-1935) and the specifics of each edition)
    1999, Vol. IV-1, pp. 47-54

    Le projet ACADEMIE a pour objectif la construction de la base informatisée des huit éditions du Dictionnaire de l'Académie française (DAF). Etant donné que celles-ci se sont échelonnées de 1694 à 1932-35, ce corpus pose d'intéressants problèmes croisés de diachronie et de synchronie, en relation à des questions plus larges touchant à la littérature et à la culture. La base du DAF proprement dite se trouve ainsi complétée par toute une série de liens hypertextuels, destinés à permettre un dialogue dynamique entre spécialistes et lecteurs/consultants.


  • Eveline MARTIN (Nancy)
    Les corpus textuels de l'INaLF. Eléments pour un catalogue
    (The text corpora of INaLF. Elements for a catalogue)
    1996, Vol. I-2, pp. 84-86
  • Shana POPLACK (Ottawa, Canada)
    Le corpus du français parlé à Ottawa-Hull
    (The corpus of spoken French of Ottawa-Hull)
    1996, Vol. I-2, pp. 95-97
  • Louise PÉRONNET (Moncton, Canada)
    Enquêtes linguistiques sur le français parlé en Acadie
    (Linguistic research on French spoken in Acadia)
    1996, Vol. I-2, pp. 98-99
  • Laurent ROMARY (Nancy)
    Le projet SILFIDE. Vers un accès ouvert aux ressources linguistiques francophones
    (The SILFIDE project. Towards an open access to French linguistic sources)
    1996, Vol. I-2, pp. 77-83
  • Patrick SAINT-DIZIER (CNRS-Toulouse)
    Quelques défis et éléments de méthode pour la construction de ressources lexicales sémantiques
    (Challenges and methods in building lexical semantic tools)
    2002, Vol. VII-1, pp. 39-51

    Dans cet article, nous abordons le problème de la constitution d'un lexique de ressources sémantiques. Notre travail a été consacré aux formes prédicatives, verbes et prépositions. Nous abordons en premier lieu plusieurs aspects liés à la méthode et au positionnement théorique d'un tel travail. Ensuite, nous décrivons les ressources développées : alternances, grilles thématiques, structure lexicale conceptuelle. Nous concluons sur l'utilisation concrète de telles ressources.


  • Emmanuel SCHANG (Orléans)
    CreolData : une base de données lexicales sur les langues créoles
    (CreolData: a lexical database on creole languages)
    2005, Vol. X-1, pp. 65-76

    Dans cet article, nous présentons CreolData, un projet de constitution d'une base de données lexicales multilingue sur les créoles portugais d'Afrique. Nous en décrivons tout d'abord les objectifs (§ 2) et les langues concernées (§ 3). Puis nous indiquons les caractéristiques techniques de ce projet (§§ 4, 5, 6). Nous concluons par une présentation des développements futurs (§ 7).


  • José SOLER (UE)
    Projets lexiques de la Commission européenne
    (Lexical projects of the European Commission)
    1997, Vol. II-1, pp. 79-81
  • Marianne STARREN (Max-Planck Institut, Allemagne)
    The European Science Foundation's Second Language Database
    1996, Vol. I-2, pp. 111-115
  • Céline VAGUER (Paris X-Nanterre)
    Constitution d'une base de données : les emplois de dans marquant la « coïncidence »
    (Creating a database: the different usages of 'dans' in marking simultaneity)
    2004, Vol. IX-1, pp. 83-97

    <p>La constitution d'une base de données pour rassembler un corpus et les données qui lui sont associées (syntaxique, sémantique, etc.) n'est pas une pratique naturelle en linguistique (lorsqu'elle n'est pas spécialisée dans le Traitement Automatique des Langues-TAL). Cet article présente l'exploitation de ce support dans le cadre d'une recherche centrée sur la préposition <em>dans</em>.</p>


  • André VALLI (Aix-en-Provence)
    Etiquetage grammatical des corpus de parole : problèmes et perspectives
    (Grammatical labeling of corpora of spoken language: problems and perspectives)
    1999, Vol. IV-2, pp. 113-133

    Les systèmes de transcription qui proposent de reproduire certains phénomènes de l'oral, comme les bribes, les hésitations, les répétitions, et qui n'utilisent pas de ponctuation peuvent laisser présager de grandes difficultés pour l'étiquetage grammatical de corpus transcrits. Le développement d'étiqueteurs directement conçus pour l'oral est souhaitable, mais ne peut constituer qu'une entreprise à long terme. Nous relatons dans cet article une expérience d'étiquetage d'un corpus oral à l'aide d'un étiqueteur conçu pour l'écrit, complété par des programmes de pré-édition et de post-édition adéquats, qui, contre toute attente, permet d'obtenir d'excellents résultats sur l'oral, presque comparables à ceux obtenus sur l'écrit. Ces résultats permettent d'envisager la constitution rapide de grands corpus oraux étiquetés pour le français.


  • Nathalie VALLÉE (INPG-Grenoble)
    La base de données UPSID : objectif et utilisation
    (The UPSID database: its aims and its use)
    1999, Vol. IV-1, pp. 7-19

    La recherche de tendances universelles dans les différentes langues parlées dans le monde est sans nul doute un axe nécessaire à toute perspective théorique en linguistique. Nous présentons ici UPSID (UCLA Phonological Segment Inventory Database, Maddieson, 1986 ; Maddieson & Precoda, 1990). Cette base contient des données phonologiques, qui sont équilibrées d'un point de vue génétique et dont la description est harmonisée. Elle a été implantée à l'ICP dans le but d'enrichir les recherches typologiques sur les voyelles, les diphtongues et les consonnes. UPSID y a été analysée grâce à une méthodologie originale qui non seulement confirme ou précise certaines régularités déjà signalées mais fait apparaître de nouvelles données.


  • Miriam VOGHERA (Naples, Italie)
    Corpora dell'italiano
    (Corpora of Italian)
    1996, Vol. I-2, pp. 131-134
  • Piek VOSSEN (Amsterdam, Pays-Bas)
    WordNet, EuroWordNet and Global WordNet
    2002, Vol. VII-1, pp. 27-38

    On se propose de présenter ici brièvement l'architecture de la base de données WordNet, conçue pour représenter des relations conceptuelles et construite initialement pour l'anglais, ainsi que les prolongements qui en ont été faits sous le nom de EuroWordNet pour sept autres langues européennes.