32 research outputs found

    Intégration de VerbNet dans un réalisateur profond

    Full text link
    La génération automatique de texte (GAT) a comme objectif de produire du texte compréhensible en langue naturelle à partir de données non-linguistiques. Les générateurs font essentiellement deux tâches : d’abord ils déterminent le contenu d’un message à communiquer, puis ils sélectionnent les mots et les constructions syntaxiques qui serviront à transmettre le message, aussi appellée la réalisation linguistique. Pour générer des textes aussi naturels que possible, un système de GAT doit être doté de ressources lexicales riches. Si on veut avoir un maximum de flexibilité dans les réalisations, il nous faut avoir accès aux différentes propriétés de combinatoire des unités lexicales d’une langue donnée. Puisque les verbes sont au coeur de chaque énoncé et qu’ils contrôlent généralement la structure de la phrase, il faudrait encoder leurs propriétés afin de produire du texte exploitant toute la richesse des langues. De plus, les verbes ont des propriétés de combinatoires imprévisibles, c’est pourquoi il faut les encoder dans un dictionnaire. Ce mémoire porte sur l’intégration de VerbNet, un dictionnaire riche de verbes de l’anglais et de leurs comportements syntaxiques, à un réalisateur profond, GenDR. Pour procéder à cette implémentation, nous avons utilisé le langage de programmation Python pour extraire les données de VerbNet et les manipuler pour les adapter à GenDR, un réalisateur profond basé sur la théorie Sens-Texte. Nous avons ainsi intégré 274 cadres syntaxiques à GenDR ainsi que 6 393 verbes de l’anglais.Natural language generation’s (NLG) goal is to produce understandable text from nonlinguistic data. Generation essentially consists in two tasks : first, determine the content of a message to transmit and then, carefully select the words that will transmit the desired message. That second task is called linguistic realization. An NLG system requires access to a rich lexical ressource to generate natural-looking text. If we want a maximum of flexibility in the realization, we need access to the combinatory properties of a lexical unit. Because verbs are at the core of each utterance and they usually control its structure, we should encode their properties to generate text representing the true richness of any language. In addition to that, verbs are highly unpredictible in terms of syntactic behaviours, which is why we need to store them into a dictionary. This work is about the integration of VerbNet, a rich lexical ressource on verbs and their syntactic behaviors, into a deep realizer called GenDR. To make this implementation possible, we have used the Python programming language to extract VerbNet’s data and to adapt it to GenDR. We have imported 274 syntactic frames and 6 393 verbs

    Le DEREDEC, logiciel pour le traitement linguistique et l'analyse du contenu des textes

    Get PDF

    Le syndrome de Sisyphe dans la recherche en technologies langagières au Canada

    Get PDF
    L’industrie de la traduction au Canada est caractérisée par des facteurs sociolinguistiques, politiques et historiques qui l’ont longtemps mise hors d’atteinte des fluctuations internationales de la demande en traduction. Or, ici, comme dans le reste du monde, les effectifs de traduction ne peuvent répondre à la demande croissante. Pour tailler sa place sur le marché mondial, le Canada devrait pouvoir compter sur son industrie des technologies langagières. Cependant, considérant sa position de pionnier dans les années 70 (avec des succès comme TAUM-MÉTÉO et Termium), le Canada accuse aujourd’hui un retard considérable. Nous avons voulu retracer l’histoire des technologies langagières au Canada, particulièrement celle des laboratoires de recherche fondamentale, pour mettre en lumière les défis qu’ont dû relever les chercheurs canadiens. Le mémoire comprend donc une présentation du contexte sociohistorique qui a vu naître les technologies de la traduction au Canada ainsi qu’une étude centrée sur quatre laboratoires canadiens : TAUM, CITI, RALI et CNRC/CRTL. Notre analyse révèle donc que les facteurs sociologiques, politiques et linguistiques propres au Canada ont causé des tensions, des incohérences et des dissensions qui ont considérablement ralenti la recherche fondamentale en technologies langagières au pays

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    Du besoin d'informations à la formulation des requêtes : étude des usages de différents types d'utilisateurs visant l'amélioration d'un système de recherche d'informations

    Get PDF
    With the massive and heterogeneous web document collections, IR system must analyze the behaviors of users which are unpredictable and varied. The approach described in this thesis provides a comparison of the verbalizations for both natural language and web query for the same information need by the same user. For this, we used data collected (i.e. users' complaints in natural language and web queries) through a search engine dedicated to economic reports in French over 5 consecutive years totaling a corpus of 1398 natural language requests and 3427 web queries. Then, we compared the expression of the information need and highlighted the contributions in terms of information and clarification, the use of either language used.Devant des collections massives et hétérogènes de données, les systèmes de RI doivent désormais pouvoir appréhender des comportements d'utilisateurs aussi variés qu'imprévisibles. L'objectif de notre travail est d'évaluer la façon dont un même utilisateur verbalise un besoin informationnel à travers un énoncé de type « expression libre » (appelé langage naturel) et un énoncé de type mots-clés (appelé langage de requêtes). Pour cela, nous nous situons dans un contexte applicatif, à savoir des demandes de remboursement des utilisateurs d'un moteur de recherche dédié à des études économiques en français. Nous avons recueilli via ce moteur, les deux types d'énoncés sur 5 années consécutives totalisant un corpus de 1398 demandes en langage naturel et de 3427 requêtes. Nous avons alors comparé l'expression en tant que tel du besoin informationnel et mis en avant ce qu'apportait, en termes d'informations et de précisions, le recours à l'un ou l'autre du langage utilisé
    corecore