• Mathieu VALETTE & Monique SLODZIAN (ATILF / INaLCO)
    Sémantique des textes et Recherche d’Information
    (Text semantics and Information research)
    2008, Vol. XIII-1, pp. 119-133

    Cet article entend rendre compte de certaines des propositions de la sémantique textuelle pour la recherche d'information et plus particulièrement pour la classification de texte par leur contenu. La première partie sera consacrée à une rétrospective de l’impact du linguistique - à travers les techniques TAL - dans le domaine de la RI. Elle sera l’occasion de faire état à la fois des résultats acquis et des approches standard de la dimension linguistique dans la problématique RI. On s’intéressera en particulier à la lente émergence de la problématique textuelle qui accompagne l’expansion du Web. Nous comptons montrer en quoi l’attention croissante suscitée par la linguistique textuelle correspond à un tournant dans la problématique de la RI sur le Web, en quoi l’approche par catégorisation des textes constitue une rupture avec les méthodes précédentes. Les deuxième et troisième parties approfondiront les conditions d’une linguistique textuelle appliquée à la RI. Nous exposerons dans un premier temps des méthodologies expérimentées dans le cadre d’un projet de filtrage des textes racistes sur Internet, puis nous présenterons certaines des recherches actuelles menées en Analyse des Données Textuelles (ADT) susceptibles, à plus ou moins court terme, d’améliorer les méthodes de la RI.