46 research outputs found
Pragmatic Visualizations for Roassal: a Florilegium
International audienceSoftware analysis and in particular reverse engineering often in- volves a large amount of structured data. This data should be pre- sented in a meaningful form so that it can be used to improve soft- ware artefacts. The software analysis community has produced nu- merous visual tools to help understand different software elements. However, most of the visualization techniques, when applied to software elements, produce results that are difficult to interpret and comprehend. This paper presents five graph layouts that are both expressive for polymetric views and agnostic to the visualization engine. These layouts favor spatial space reduction while emphasizing on clarity. Our layouts have been implemented in the Roassal visualization engine and are available under the MIT License
A Framework for Understanding the Role of Morphology in Universal Dependency Parsing
International audienceThis paper presents a simple framework forcharacterizing morphological complexity andhow it encodes syntactic information. In particular,we propose a new measure of morphosyntacticcomplexity in terms of governordependentpreferential attachment that explainsparsing performance. Through experimentson dependency parsing with datafrom Universal Dependencies (UD), we showthat representations derived from morphologicalattributes deliver important parsing performanceimprovements over standard wordform embeddings when trained on the samedatasets. We also show that the new morphosyntacticcomplexity measure is predictive ofthe gains provided by using morphological attributesover plain forms on parsing scores,making it a tool to distinguish languages usingmorphology as a syntactic marker from others
Modal sense classification with task-specific context embeddings
International audienceSense disambiguation of modal constructions is a crucial part of natural language understanding. Framed as a supervised learning task, this problem heavily depends on an adequate feature representation of the modal verb context. Inspired by recent work on general word sense disambiguation, we propose a simple approach of modal sense classification in which standard shallow features are enhanced with task-specific context embedding features. Comprehensive experiments show that these enriched contextual representations fed into a simple SVM model lead to significant classification gains over shallow feature sets
Pragmatic Visualizations for Roassal: a Florilegium
International audienceSoftware analysis and in particular reverse engineering often in- volves a large amount of structured data. This data should be pre- sented in a meaningful form so that it can be used to improve soft- ware artefacts. The software analysis community has produced nu- merous visual tools to help understand different software elements. However, most of the visualization techniques, when applied to software elements, produce results that are difficult to interpret and comprehend. This paper presents five graph layouts that are both expressive for polymetric views and agnostic to the visualization engine. These layouts favor spatial space reduction while emphasizing on clarity. Our layouts have been implemented in the Roassal visualization engine and are available under the MIT License
The SuperCam Instrument Suite on the Mars 2020 Rover: Science Objectives and Mast-Unit Description
On the NASA 2020 rover mission to Jezero crater, the remote determination of the texture, mineralogy and chemistry of rocks is essential to quickly and thoroughly characterize an area and to optimize the selection of samples for return to Earth. As part of the Perseverance payload, SuperCam is a suite of five techniques that provide critical and complementary observations via Laser-Induced Breakdown Spectroscopy (LIBS), Time-Resolved Raman and Luminescence (TRR/L), visible and near-infrared spectroscopy (VISIR), high-resolution color imaging (RMI), and acoustic recording (MIC). SuperCam operates at remote distances, primarily 2-7 m, while providing data at sub-mm to mm scales. We report on SuperCam's science objectives in the context of the Mars 2020 mission goals and ways the different techniques can address these questions. The instrument is made up of three separate subsystems: the Mast Unit is designed and built in France; the Body Unit is provided by the United States; the calibration target holder is contributed by Spain, and the targets themselves by the entire science team. This publication focuses on the design, development, and tests of the Mast Unit; companion papers describe the other units. The goal of this work is to provide an understanding of the technical choices made, the constraints that were imposed, and ultimately the validated performance of the flight model as it leaves Earth, and it will serve as the foundation for Mars operations and future processing of the data.In France was provided by the Centre National d'Etudes Spatiales (CNES). Human resources were provided in part by the Centre National de la Recherche Scientifique (CNRS) and universities. Funding was provided in the US by NASA's Mars Exploration Program. Some funding of data analyses at Los Alamos National Laboratory (LANL) was provided by laboratory-directed research and development funds
Parsing en Dépendances Multilingue : Représentation de Mots et Apprentissage Joint pour l’Analyse Syntaxique
Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensiveefforts of the dependency parsing community, the number of languages for which data have been annotated isstill below the hundred, and only a handful of languages have more than ten thousands annotated sentences. Inorder to alleviate the lack of training data and to make dependency parsing available for more languages, previousresearch has proposed methods for sharing syntactic information across languages. By transferring models and/orannotations or by jointly learning to parse several languages at once, one can capitalise on languages grammaticalsimilarities in order to improve their parsing capabilities. However, while words are a key source of information formono-lingual parsers, they are much harder to use in multi-lingual settings because they vary heavily even betweenvery close languages. Morphological features on the contrary, are much more stable across related languages thanword forms and they also directly encode syntactic information. Furthermore, it is arguably easier to annotatedata with morphological information than with complete dependency structures. With the increasing availabilityof morphologically annotated data using the same annotation scheme for many languages, it becomes possible touse morphological information to bridge the gap between languages in multi-lingual dependency parsing.In this thesis, we propose several new approaches for sharing information across languages. These approacheshave in common that they rely on morphology as the adequate representation level for sharing information. Wetherefore also introduce a new method to analyse the role of morphology in dependency parsing relying on a newmeasure of morpho-syntactic complexity.The first method uses morphological information from several languages to learn delexicalised word representations that can then be used as feature and improve mono-lingual parser performances as a kind of distantsupervision. The second method uses morphology as a common representation space for sharing information during the joint training of model parameters for many languages. The training process is guided by the evolutionarytree of the various language families in order to share information between languages historically related thatmight share common grammatical traits. We empirically compare this new training method to independentlytrained models using data from the Universal Dependencies project and show that it greatly helps languages withfew resources but that it is also beneficial for better resourced languages when their family tree is well populated.We eventually investigate the intrinsic worth of morphological information in dependency parsing. Indeed not alllanguages use morphology as extensively and while some use morphology to mark syntactic relations (via casesand persons) other mostly encode semantic information (such as tense or gender). To this end, we introducea new measure of morpho-syntactic complexity that measures the syntactic content of morphology in a givencorpus as a function of preferential head attachment. We show through experiments that this new measure cantease morpho-syntactic languages and morpho-semantic languages apart and that it is more predictive of parsingresults than more traditional morphological complexity measures.L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancéesdans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultatscomparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de languesayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique endépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’informationsyntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyserplusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsiaméliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pourl’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grandevariabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biensplus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simpled’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autantplus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation,il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxiquemultilingue en dépendances.Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurslangues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in-formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettantd’étudier le rôle de la morphologie dans l’analyse en dépendances.La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta-tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues.La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour ypartager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage yest guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’informationentre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biaisd’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage estbien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, etqu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissonsavec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors quecertaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes),d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisonsune nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans lamorphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences quecette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiqueset qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles decomplexité morphologique
Parsing en Dépendances Multilingue : Représentation de Mots et Apprentissage Joint pour l’Analyse Syntaxique
Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensiveefforts of the dependency parsing community, the number of languages for which data have been annotated isstill below the hundred, and only a handful of languages have more than ten thousands annotated sentences. Inorder to alleviate the lack of training data and to make dependency parsing available for more languages, previousresearch has proposed methods for sharing syntactic information across languages. By transferring models and/orannotations or by jointly learning to parse several languages at once, one can capitalise on languages grammaticalsimilarities in order to improve their parsing capabilities. However, while words are a key source of information formono-lingual parsers, they are much harder to use in multi-lingual settings because they vary heavily even betweenvery close languages. Morphological features on the contrary, are much more stable across related languages thanword forms and they also directly encode syntactic information. Furthermore, it is arguably easier to annotatedata with morphological information than with complete dependency structures. With the increasing availabilityof morphologically annotated data using the same annotation scheme for many languages, it becomes possible touse morphological information to bridge the gap between languages in multi-lingual dependency parsing.In this thesis, we propose several new approaches for sharing information across languages. These approacheshave in common that they rely on morphology as the adequate representation level for sharing information. Wetherefore also introduce a new method to analyse the role of morphology in dependency parsing relying on a newmeasure of morpho-syntactic complexity.The first method uses morphological information from several languages to learn delexicalised word representations that can then be used as feature and improve mono-lingual parser performances as a kind of distantsupervision. The second method uses morphology as a common representation space for sharing information during the joint training of model parameters for many languages. The training process is guided by the evolutionarytree of the various language families in order to share information between languages historically related thatmight share common grammatical traits. We empirically compare this new training method to independentlytrained models using data from the Universal Dependencies project and show that it greatly helps languages withfew resources but that it is also beneficial for better resourced languages when their family tree is well populated.We eventually investigate the intrinsic worth of morphological information in dependency parsing. Indeed not alllanguages use morphology as extensively and while some use morphology to mark syntactic relations (via casesand persons) other mostly encode semantic information (such as tense or gender). To this end, we introducea new measure of morpho-syntactic complexity that measures the syntactic content of morphology in a givencorpus as a function of preferential head attachment. We show through experiments that this new measure cantease morpho-syntactic languages and morpho-semantic languages apart and that it is more predictive of parsingresults than more traditional morphological complexity measures.L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancéesdans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultatscomparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de languesayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique endépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’informationsyntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyserplusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsiaméliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pourl’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grandevariabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biensplus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simpled’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autantplus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation,il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxiquemultilingue en dépendances.Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurslangues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in-formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettantd’étudier le rôle de la morphologie dans l’analyse en dépendances.La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta-tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues.La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour ypartager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage yest guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’informationentre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biaisd’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage estbien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, etqu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissonsavec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors quecertaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes),d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisonsune nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans lamorphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences quecette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiqueset qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles decomplexité morphologique
A Framework for Understanding the Role of Morphology in Universal Dependency Parsing
International audienceThis paper presents a simple framework forcharacterizing morphological complexity andhow it encodes syntactic information. In particular,we propose a new measure of morphosyntacticcomplexity in terms of governordependentpreferential attachment that explainsparsing performance. Through experimentson dependency parsing with datafrom Universal Dependencies (UD), we showthat representations derived from morphologicalattributes deliver important parsing performanceimprovements over standard wordform embeddings when trained on the samedatasets. We also show that the new morphosyntacticcomplexity measure is predictive ofthe gains provided by using morphological attributesover plain forms on parsing scores,making it a tool to distinguish languages usingmorphology as a syntactic marker from others
A Framework for Understanding the Role of Morphology in Universal Dependency Parsing
International audienceThis paper presents a simple framework forcharacterizing morphological complexity andhow it encodes syntactic information. In particular,we propose a new measure of morphosyntacticcomplexity in terms of governordependentpreferential attachment that explainsparsing performance. Through experimentson dependency parsing with datafrom Universal Dependencies (UD), we showthat representations derived from morphologicalattributes deliver important parsing performanceimprovements over standard wordform embeddings when trained on the samedatasets. We also show that the new morphosyntacticcomplexity measure is predictive ofthe gains provided by using morphological attributesover plain forms on parsing scores,making it a tool to distinguish languages usingmorphology as a syntactic marker from others
