Automatic Documents Analyzer and Classifier

Abstract

Military organizations have to deal with an increasing number of documents coming from different sources and in various formats (paper, fax, e-mail messages, electronic documents). These documents have to be screened, analyzed and categorized in order to interpret their content and gain situation awareness. These documents should be categorized according to their content to enable efficient storage and retrieval. In this context, intelligent techniques and tools should be provided to support this information management process that is currently partly manual. Integrating the recently acquired knowledge in different fields in a system for analyzing, diagnosing, filtering, classifying and clustering documents with a limited human intervention would improve efficiently the quality of information management with reduced human resources. A better categorization and management of information would facilitate correlation of information from different sources, avoid information redundancy, improve access to relevant information, and thus better support decision-making processes. The RDDC-Valcartier's ADAC system (Automatic Documents Analyzer and Classifier) incorporates several techniques and tools for document summarizing and semantic analysis based on ontology of a certain domain (e.g. terrorism), and algorithms of diagnostic, classification and clustering. In this paper, we describe the architecture of the system and the techniques and tools used at each step of the document processing. For the first prototype implementation, the focus has been concentrated on the terrorism domain to develop document corpus and related ontology.Les organisations militaires doivent faire face \ue0 un nombre croissant de documents provenant de diverses sources et dans divers formats (papier, t\ue9l\ue9copies, courriels, documents \ue9lectroniques). Ces documents doivent \ueatre v\ue9rifi\ue9s, analys\ue9s et cat\ue9goris\ue9s afin d'en interpr\ue9ter le contenu et de prendre connaissance de la situation. Ils devraient \ueatre cat\ue9goris\ue9s selon leur contenu pour permettre un entreposage et une r\ue9cup\ue9ration efficaces. Dans cette optique, des technologies et outils intelligents devraient \ueatre fournis afin de soutenir la gestion de l'information qui se fait en partie manuellement. En int\ue9grant les connaissances r\ue9cemment acquises dans divers domaines \ue0 un syst\ue8me qui analyse, diagnostique, filtre, classifie et regroupe les documents avec une intervention humaine limit\ue9e, on am\ue9liorerait convenablement la qualit\ue9 de la gestion de l'information avec moins d'effectifs. Une meilleure cat\ue9gorisation et gestion de l'information faciliteraient la corr\ue9lation de l'information issue de diff\ue9rentes sources, \ue9viteraient la redondance, am\ue9lioreraient l'acc\ue8s \ue0 de l'information pertinente et permettraient donc de mieux soutenir les processus d\ue9cisionnels. Le syst\ue8me ADAC (Analyseur et classificateur automatiques pour les documents) de RDDC Valcartier comprend plusieurs techniques et outils pour r\ue9sumer les documents et effectuer des analyses s\ue9mantiques qui se basent sur l'ontologie d'un domaine particulier (p. ex. le terrorisme) ainsi que les algorythmes de diagnostic, de classification et de regroupement. Dans ce document, nous d\ue9crivons l'architecture du syst\ue8me ainsi que les techniques et outils utilis\ue9s \ue0 chaque \ue9tape du traitement des documents. Pour la r\ue9alisation du premier prototype, nous nous sommes concentr\ue9s sur le domaine du terrorisme pour \ue9laborer le corps du document et l'ontologie qui s'y rattache.NRC publication: Ye

    Similar works

    Full text

    thumbnail-image

    Available Versions