183 research outputs found
Hi\'{e}rarchisation des r\`{e}gles d'association en fouille de textes
Extraction of association rules is widely used as a data mining method.
However, one of the limit of this approach comes from the large number of
extracted rules and the difficulty for a human expert to deal with the totality
of these rules. We propose to solve this problem by structuring the set of
rules into hierarchy. The expert can then therefore explore the rules, access
from one rule to another one more general when we raise up in the hierarchy,
and in other hand, or a more specific rules. Rules are structured at two
levels. The global level aims at building a hierarchy from the set of rules
extracted. Thus we define a first type of rule-subsomption relying on Galois
lattices. The second level consists in a local and more detailed analysis of
each rule. It generate for a given rule a set of generalization rules
structured into a local hierarchy. This leads to the definition of a second
type of subsomption. This subsomption comes from inductive logic programming
and integrates a terminological model
Mining for adverse drug events with formal concept analysis
The pharmacovigilance databases consist of several case reports involving
drugs and adverse events (AEs). Some methods are applied consistently to
highlight all signals, i.e. all statistically significant associations between
a drug and an AE. These methods are appropriate for verification of more
complex relationships involving one or several drug(s) and AE(s) (e.g;
syndromes or interactions) but do not address the identification of them. We
propose a method for the extraction of these relationships based on Formal
Concept Analysis (FCA) associated with disproportionality measures. This method
identifies all sets of drugs and AEs which are potential signals, syndromes or
interactions. Compared to a previous experience of disproportionality analysis
without FCA, the addition of FCA was more efficient for identifying false
positives related to concomitant drugs
Multilingual Transformer Encoders: a Word-Level Task-Agnostic Evaluation
Some Transformer-based models can perform cross-lingual transfer learning:
those models can be trained on a specific task in one language and give
relatively good results on the same task in another language, despite having
been pre-trained on monolingual tasks only. But, there is no consensus yet on
whether those transformer-based models learn universal patterns across
languages. We propose a word-level task-agnostic method to evaluate the
alignment of contextualized representations built by such models. We show that
our method provides more accurate translated word pairs than previous methods
to evaluate word-level alignment. And our results show that some inner layers
of multilingual Transformer-based models outperform other explicitly aligned
representations, and even more so according to a stricter definition of
multilingual alignment.Comment: accepted at IJCNN 202
Annotation sémantique par classification
National audienceLes systèmes actuels d'annotation sémantique exploitent peu les connaissances du domaine et fonctionnent essentiellement du texte vers l'ontologie. Pourtant, il est fréquent qu'un élément dans une page doive être annoté par un concept parce que certains autres éléments de cette même page sont annotés par d'autres concepts. Cet article propose une méthode d'annotation prenant en compte cette dépendance entre concepts, exprimée dans une ontologie sous forme de concepts définis. L'utilisation des logiques de descriptions comme mode de représentation unifiée de la structure des documents, de l'ontologie et de l'annotation sémantique du document permet de définir le processus d'annotation comme un mécanisme de classification et d'introduire la notion de classe d'annotation
Classes d'annotation pour l'annotation sémantique
National audienceLes classes d'annotation constituent une méthode d'annotation sémantique de pages web fondée sur les logiques de descriptions. Elles désignent l'annotation à la fois comme processus et comme résultat de ce processus. Cette approche est motivée par un parallèle entre la structure d'une page web et la sémantique qui lui est associée. Ces deux dimensions de structure et de sémantique sont formalisées en OWL-DL, un langage fondé sur les logiques de descriptions. L'annotation est ensuite traitée comme un problème d'instanciation : une page web est interprétée comme instance d'une classe d'annotation en fonction de sa structure et de sa sémantique
Interprétation des règles d'association extraites par un processus de fouille de textes
Colloque avec actes et comité de lecture. nationale.National audienceNous proposons, dans cet article, la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus qui a servi à notre expérience est une collection de textes sous forme de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Notre recherche porte sur: i) l'extraction des règles d'association sur des données textuelles; ii) l'association d'indices statistiques à chaque règle, ce qui permet de les ordonner; iii) l'interprétation de ces règles par un expert du domaine afin de trouver un lien entre les indices et la nature des connaissances qu'il recherche. Cet article portera essentiellement sur les deux derniers points. Nous montrons l'importance d'aider l'expert dans son interprétation des règles à l'aide des indices statistiques. Nous soulignons également la difficulté de caractériser une règle par rapport aux textes et au domaine considéré. Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétation des règles d'association
Adéquation d'indices statistiques à l'interprétation de règles d'association
Colloque avec actes et comité de lecture. internationale.International audienceNous proposons, dans cet article, la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus qui a servi à notre expérience est une collection de textes sous forme de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Notre recherche porte sur : i)l'extraction des règles d'association à partir de la construction des ensembles fermés fréquents générés par l'algorithme "Close"; ii)l'association d'indices statistiques à chaque règle, ce qui permet de les ordonner; iii)l'interprétation des règles par un expert du domaine; iv) la mise en correspondance des points ii) et iii). Cet article portera essentiellement sur les trois derniers points. Nous montrons l'importance d'aider l'expert, grâce aux indices, dans son interprétation des règles. Nous insistons, plus particulièrement, sur deux de ces indices~: l'"intérêt" et la "dépendance" pour les règles dites "totales". Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétabilité des règles d'association
Fouille de textes par combinaison de règles d'association et d'indices statistiques
Colloque avec actes et comité de lecture. internationale.International audienceNous proposons la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus ayant servi à notre expérimentation est constitué de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Ce processus génère un trop grand nombre de règles et nous amène à chercher à les trier de la plus informative à la moins informative.Le classement est établi suivant des indices statistiques. Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétabilité des règles d'association. || This paper aims at defining a methodology of access and reading of association rules extracted from texts. The corpus used is a set of scientific abstracts in the field of molecular biology. The mining process often generates a huge number of rules. Thi
Classification dynamique par treillis de concepts pour la recherche d'information sur le web.
National audienceL'analyse de concepts formels (ACF) permet d'organiser des objets en fonction de leurs propriétés. Des travaux récents ont utilisé l'ACF pour réorganiser, sous la forme d'un treillis de concepts, les réponses fournies par un moteur de recherche du web. L'utilisateur navigue dans le treillis pour explorer un résultat structuré et synthétique. Or, un tel treillis contient des concepts qui sont pertinents par rapport à une tâche de recherche d'information donnée et d'autres qui ne le sont pas. Pour que l'utilisateur puisse se focaliser sur ce qui l'intéresse et éliminer ce qui ne l'intéresse pas, nous proposons un système interactif dans lequel il va exprimer son intérêt (positif ou négatif) pour certains concepts du treillis. Ce contrôle de pertinence est exploité dans la classification pour faire évoluer le treillis et ainsi mieux l'adapter au besoin de l'utilisateur
- …