2000-2 | Diversité du traitement automatique des langues (Diversity in automatic language processing) | |
Cliquer sur le livret pour en lire un résumé |
-
Antoine CONSIGNY (Liverpool, Grande-Bretagne)Looking at Phrasal Verbs in a Data-Driven Perspective : A Case Study of 'Take Up'pp. 7-18
Le but de cet article est de présenter une étude sémantique du verbe à postposition ou "phrasal verb" (PV) "take up". Le PV est étudié à partir d'un corpus numérisé du journal britannique The Guardian, grâce au concordancier Microconcord (Johns et Scott, 1993). Les occurrences de "take up" sont étudiées individuellement, puis une liste de sens est établie. Une fois que les différents sens ont été définis, une seconde étape consiste à étudier les parties du PV (verbe et postposition). En comparant ces résultats avec ceux d'autres études sur les postpositions dans les PV (notamment Lindner, 1981 ; Side, 1990 ; Hampe, 1997 ; Hannan, 1998) et sur les verbes (Consigny, 1995 ; Allen, 1998), nous montrerons que l'importance relative de la postposition par rapport au verbe n'est pas aussi grande que certains le voudraient.
-
François MANIEZ (Lyon 2)Le repérage par traitement automatique du défigement lexical des proverbes dans la presse américaine(Automatic retrieval of intentionally modified proverbs in the American press)pp. 19-32
Le recours à l'allusion par défigement lexical est un aspect de la prose journalistique qui peut faire obstacle à la compréhension de l'apprenant en langue étrangère. L'automatisation du repérage de ces allusions serait utile dans le cadre d'un système d'aide à la compréhension en ligne. A partir d'une base de données regroupant 10 500 titres d'articles de la presse américaine, nous analysons les références au fonds culturel anglo-saxon par défigement lexical. Dans le cas des allusions aux proverbes, diverses méthodes d'automatisation du repérage de ces défigements sont testées par comparaison de ces titres avec les 800 proverbes les plus courants de la langue anglaise.
-
J.G. KRUYT (Leyde, Pays-Bas)Towards the Integrated Language Database of 8th-21st Century Dutchpp. 33-44
Ces dix dernières années, la technologie a eu un impact assez important sur les activités de l'Institut Néerlandais de Lexicologie. Le résultat est entre autres trois dictionnaires électroniques qui couvrent la période entre 1200 et 1976 et quelques corpus de textes historiques et actuels lemmatisés et avec étiquetage morpho-syntaxique. Depuis que trois bases de données du néerlandais moderne sont rendues accessible sur le net en 1994, elles ne sont pas uniquement utilisées pour la lexicologie mais aussi pour plusieurs autres objectifs. La technologie avancée aura de plus en plus d'importance et notamment sur un projet récemment initié : la Database Intégrée de la Langue Néerlandaise allant du 8ème au 21ème siècle. Les dictionnaires, les lexiques et une base de données diachronique seront liés d'une façon significative. Des parties de cette database seront liées avec des data comparables des collections d'autres instituts. Ainsi, nous créons un instrument de recherche supra-institutionelle qui donnera des nouvelles opportunités pour la recherche innovante.
-
Pablo GAMALLO (Lisbonne, Portugal)Bases lexicales et systèmes d'héritage conduits par la relation de méréonymie(Lexical bases and 'heritage' systems on the basis of meronymy relationships)pp. 45-56
La plupart des bases lexicales et ontologies computationnelles sont organisées au moyen d'un système d'héritage lexical basé sur la relation taxinomique EST_UN (IS_A). Cette relation est perçue comme le canal par où s'effectue le transfert de l'information lexicale. Nous postulons cependant que le transfert de l'information dans une ontologie de types lexicaux peut être aussi véhiculé au travers d'autres sortes de relations ontologiques, en particulier, nous analyserons le mécanisme d'héritage organisé autour de la relation méréonymique COMPOSÉ_DE. L'objectif principal de cette communication sera de caractériser le squelette informatif d'une ontologie lexicale à partir d'un système d'inférences méréonymiques, i.e., un système permettant à un tout d'hériter de l'information de ses parties. Puis, nous montrerons que ce type d'héritage permet de modéliser l'interprétation métonymique des noms polysémiques.
-
Manuel BARBERA & Carla MARELLO (Turin, Italie)Les lexies complexes et leur annotation morphosyntaxique dans le Corpus Taurinense(Complex lexical units and their morphosyntactic treatment in the Corpus Taurinense)pp. 57-70
Le Corpus Taurinense (CT) est la version morphologiquement annotée d'ItalAnt Corpus, un corpus électronique de textes d'ancien italien (écrits entre 1251 et 1300). Nous essayons ici de décrire l'approche suivie dans le CT pour l'annotation des lexies complexes (MWUs 'multiword units'). La lexie complexe dans notre travail est un groupe de deux mots graphiques ou plus qui reçoit (aussi) une étiquette de partie du discours d'ensemble parce que ce groupe de mots est en relation paradigmatique avec une autre unité lexicale de la même partie du discours.Notre étiquetage de parties du discours confirme que la majorité des conjonctions composées de l'italien moderne n'était pas lexicalisée à cette époque. L'ordre des composants est déjà celui de l'italien moderne mais ces conjonctions peuvent encore être interrompues par des éléments occasionnels.
-
Thomas LEBARBÉ & François GIRAULT (Caen)TAPAS : Traitement et Analyse par Perception Augmentée en Syntaxe(TAPAS: Treatment and Analysis in Syntax by Augmented Perception)pp. 71-83
Dans cet article, nous présentons une approche innovante de l'analyse syntaxique. Contrairement aux courants habituels qui conçoivent l'analyse syntaxique par des processus en série, nous proposons ici une architecture d'agents cognitifs hybrides dont la tâche est l'analyse syntaxique robuste et profonde.Après une présentation succincte des travaux courants dont nous sommes partis, nous présenterons à l'aide d'un exemple le fonctionnement théorique de notre architecture. Ceci nous permettra ensuite de décrire l'architecture APA, que nous avons utilisée pour ce projet conjoint. Enfin, en conclusion, nous présenterons certaines perspectives de développement.
-
Nathalie GARRIC & Denis MAUREL (Tours)Désambiguïsation des noms propres déterminés par l'utilisation des grammaires locales(Disambiguating proper nouns by use of local grammars)pp. 85-100
Cet article s'inscrit dans le cadre du projet PROLEX de traitement automatique des noms propres. Notre objectif, par l'exploitation de l'outil informatique, consiste, non seulement à identifier les différentes occurrences du nom propre déterminé (modifié ou non modifié), mais également, à leur affecter un type d'interprétation pertinent : référentielle, dénominative, exemplaire, métaphorique ou fractionnée. Après l'élaboration d'une typologie des emplois propriaux déterminés, il s'agit d'extraire les indices formels et lexicaux autorisant la désambiguïsation du fonctionnement référentiel et sémantique du nom propre. Après avoir isolé ces unités discriminantes (par exemple les déterminants, les adjectifs, les prédicats d'existence), on propose des grammaires locales destinées à la reconnaissance automatique.
-
Denise MALRIEU & François RASTIER (CNRS-Paris)Genres et variations morphosyntaxiques('Genres' and morphosyntactic variations)pp. 101-120
En pratiquant une analyse statistique différentielle de 2600 textes intégraux analysés et étiquetés par l'analyseur CORDIAL nous avons testé et exploité la notion de genre textuel. Une classification "manuelle" préalable des textes a permis de combiner démarches déductive et inductive pour confirmer l'existence de différences significatives entre discours, champs génériques et genres textuels, attestées sur 250 variables morphosyntaxiques. Les résultats de l'analyse univariée montrent ainsi des différences plus nombreuses et plus fortes entre discours, champs génériques qu'entre genres narratifs.L'analyse hiérarchique ascendante confirme les différences des discours et champs génériques (juridique vs autres ; théâtre et poésie vs genres narratifs) , mais elle établit des classes mixtes dans le bas de la hiérarchie, le roman policier s'opposant le plus aux autres genres narratifs. Ces résultats confirment l'intérêt de la notion de genre pour l'analyse linguistique des textes, renforcent l'hypothèse de Hjelmslev selon laquelle la syntaxe relève du contenu linguistique, et mettent en évidence des solidarités d'échelle jusqu'alors inaperçues entre le niveau global du texte et le niveau local du mot.
-
Béatrice OSMONT (IUFM-Lille)Comment définir le genre hypertextuel d’un site d’établissement(Defining the hypertextual genre in school websites)pp. 121-136
Les sites Internet présentent des formes de production textuelle qui socialement situées, qui autorisent une catégorisation par genre. Nous proposons une analyse sémantique qui prend en compte la complexité de ces formes hypertextuelles. Les sites d'établissement scolaires sont pris en exemple pour exposer certaines propriétés spécifiques à un ensemble de sites.
-
Alberto DIAZ ESTEBAN & Pablo Gervas GOMEZ-NAVARRO (Madrid, Espagne)Three Information Filtering Applications on the Internet driven by Linguistic Techniquespp. 137-149
-
Sylvie NORMAND & Didier BOURIGAULT (CNRS-Rouen / Toulouse)Analyse des adjectifs d'un corpus médical à l'aide d'outils de traitement automatique des langues(Analysis of the adjectives of a medical corpus by means of automatic language processing)pp. 151-160
Il a été mis en évidence une importante variabilité dans les diagnostics fournis par des experts médicaux dans le domaine de l'histopathologie, à partir d'observations macroscopiques et microscopiques d'images de tumeurs du sein. Le manque de reproductibilité dans l'identification de caractéristiques morphologiques est en partie dû à une différence de niveau d'expertise des différents spécialistes et à une interprétation subjective des images. En tant que linguistes et développeurs de systèmes de traitement automatique des langues (TAL), nous avons engagé une collaboration avec l'équipe d'informatique médicale de l'Hôpital Broussais consistant à explorer une nouvelle manière d'acquérir un glossaire médical selon une méthodologie à base de corpus. Notre travail porte essentiellement sur les adjectifs dans la mesure où cette catégorie linguistique est fortement impliquée dans l'évaluation. Les premiers résultats de cette étude montrent la pertinence d'une approche à base de corpus pour capter les interprétations "subjectives" données par les spécialistes lors de l'analyse d'images microscopiques.