ASRAEL
Datafication d'événements
ASRAEL est un moteur de recherche dédié aux événements médiatiques, permettant aux journalistes d'effectuer des requêtes en fonction d’attributs spécifiques, comme par exemple accéder à des documents sur des séismes en Asie d'une magnitude supérieure à 7. Ce projet repose sur des techniques de traitement automatique des langues (TAL ou TALN) et de web sémantique.
La société de l’information et de la communication a entraîné une production massive de contenus non structurés (textes, images, vidéos), tandis que les promesses d’un « web de la connaissance » restent encore lointaines. Cette situation évolue grâce au développement de portails de données ouvertes ou de ressources telles que DBpedia, qui facilitent l’accès à des informations stockées dans des bases de données (statistiques économiques, données démographiques, connaissances issues des infobox de Wikipédia, etc.). Cependant, la majorité du savoir demeure produit sous forme de données textuelles.
Parmi ces données, celles liées aux événements suscitent un intérêt particulier, notamment avec l’émergence du journalisme de données. Celui-ci, jusqu’à présent, s’est nourri de données publiques et statistiques, tout en exploitant paradoxalement très peu les matériaux journalistiques eux-mêmes, pourtant intrinsèquement liés aux événements. Le projet ASRAEL vise à combler cette lacune.
S’inscrivant dans le cadre scientifique général d’extraction de l’information, ASRAEL ambitionne d’extraire des événements à partir de vastes ensembles de documents textuels, sans connaissance préalable, pour alimenter et publier une base de connaissances dédiée aux événements. Cette base constituera le socle d’un moteur de recherche spécialisé.
Un événement y est défini comme une représentation structurée d’un fait, comprenant un noyau, un contexte spatio-temporel et des arguments. Les types d’événements regroupent des instances comparables, telles que les « séismes », les « élections » ou les « courses automobiles ». Les arguments, sous forme de paires attribut/valeur, caractérisent un type d’événement (par exemple, pour un séisme : localisation, date, magnitude, pertes humaines…). Les modèles d’événements (templates) synthétisent ces attributs. La règle des « 5 W », (qui, quoi, où, quand et pourquoi), propre à l’écriture journalistique anglo-saxonne, sert de guide pour structurer l’information. Cette règle stipule qu'une bonne description d'un événement doit présenter ces cinq éléments de manière explicite.
Dans l’extraction de l’information automatique, les données sur le « qui », le « où » et le « quand » sont obtenues via des approches classiques de reconnaissance d’entités nommées. En revanche, le « quoi » demeure spécifique à chaque domaine, nécessitant des modèles prédéfinis par des experts ou des systèmes basés sur des règles et des modèles statistiques. Dans les domaines généraux, où la diversité des événements rend cette définition manuelle impossible, les méthodes de recherche d’information (RI), comme les « sacs de mots », sont privilégiées, bien qu’elles n’offrent pas de réponse structurée.
ASRAEL vise à relever deux défis principaux :
Découvrir automatiquement des modèles d’événements à partir de corpus textuels massifs et enrichir une base de connaissances dédiée aux événements, en combinant des approches supervisées et non supervisées pour répondre à la complexité du problème.
Utiliser cette base de connaissances pour construire un agrégateur d’événements et un moteur de recherche sémantique. Grâce à cet outil, un utilisateur, journaliste ou non, pourra interroger un type d’événement (par exemple : séisme) et appliquer des filtres sur les attributs (localisation = Turquie, magnitude > 8, etc.). La base sera également publiée selon les principes des données liées (linked data) pour encourager sa réutilisation.
ASRAEL illustre une avancée dans l’exploitation des technologies de l’information pour enrichir le journalisme de données et démocratiser l’accès structuré aux événements mondiaux.
Xavier Tannier
Coordinateur du projet ASRAEL
@xtannier
Projet financé par l'ANR
(Agence Nationale de la Recherche)