8 research outputs found

    Automatic thesaurus construction

    Get PDF
    Sydney, NS

    Le test de substituabilité à l'épreuve des corpus : utiliser l'analyse distributionnelle automatique pour l'étude des relations lexicales

    Get PDF
    International audienceNotre objectif, dans le cadre de cet article, est d'étudier les résultats produits par un système d'analyse distributionnelle automatique afin de mieux comprendre sous quelles conditions le critère distributionnel permet de repérer les relations lexicales les plus usuelles - synonymie, antonymie, hyperonymie, méronymie. Le test de substituabilité est le critère clé auquel les lexicologues ont recours pour identifier la plupart des relations de nature paradigmatique entre mots (Cruse 1986 ; Murphy 2003). Un système d'analyse distributionnelle automatique offre précisément la possibilité de mettre en œuvre ce test à grande échelle, sur un large corpus. Il constitue un outil intéressant pour la vérification empirique de ce principe et, de façon plus générale, pour l'étude de ces relations sémantiques en corpus. Nous avons choisi d'aborder cette question en confrontant les résultats du programme d'AD dont nous disposons avec des données issues de ressources lexicales recensant différents types de relations sémantiques (synonymie, antonymie, hyperonymie, méronymie). Cette confrontation montre de forts décalages entre la ressource distributionnelle et ces lexiques. Si une part importante des paires reliées dans les lexiques sont des voisins distributionnels, c'est loin d'être toujours le cas, même quand il s'agit d'unités lexicales fréquentes dans le corpus. Nous essayons de comprendre les raisons de ces décalages en nous appuyant sur les informations que nous fournit l'analyse automatique. Cette étude est menée sur des données en français

    Evaluation of taxonomic and neural embedding methods for calculating semantic similarity

    Full text link
    Modelling semantic similarity plays a fundamental role in lexical semantic applications. A natural way of calculating semantic similarity is to access handcrafted semantic networks, but similarity prediction can also be anticipated in a distributional vector space. Similarity calculation continues to be a challenging task, even with the latest breakthroughs in deep neural language models. We first examined popular methodologies in measuring taxonomic similarity, including edge-counting that solely employs semantic relations in a taxonomy, as well as the complex methods that estimate concept specificity. We further extrapolated three weighting factors in modelling taxonomic similarity. To study the distinct mechanisms between taxonomic and distributional similarity measures, we ran head-to-head comparisons of each measure with human similarity judgements from the perspectives of word frequency, polysemy degree and similarity intensity. Our findings suggest that without fine-tuning the uniform distance, taxonomic similarity measures can depend on the shortest path length as a prime factor to predict semantic similarity; in contrast to distributional semantics, edge-counting is free from sense distribution bias in use and can measure word similarity both literally and metaphorically; the synergy of retrofitting neural embeddings with concept relations in similarity prediction may indicate a new trend to leverage knowledge bases on transfer learning. It appears that a large gap still exists on computing semantic similarity among different ranges of word frequency, polysemous degree and similarity intensity

    Teksgebaseerde tesourusgebruik in 'n Afrikaanse taalonderrigkonteks

    Get PDF
    CITATION: van der Merwe, M. F. 2022. Teksgebaseerde tesourusgebruik in ’n Afrikaanse taalonderrigkonteks. Lexikos, 32(1):180-199. doi:10.5788/32-1-1714The original publication is available at https://lexikos.journals.ac.za/pubText-based Use of a Thesaurus in an Afrikaans language and teaching context. The topic of the article articulates and explores possibilities for the use of a thesaurus in the language and teaching context of the school classroom. Although the thesaurus is one of the oldest reference works in the history of lexicography, that fact is not reflected in the number of research articles on the topic. A thesaurus does not seem to be a general focus point of lexicographic research, nor be it of pedagogical lexicography. To address the gap in literature, the purpose and lexicographic functions of a thesaurus, especially in a language education context, are foregrounded. The language education context is illuminated with reference to the prescribed use of the thesaurus in school curricula documents, as they dictate the teaching policy in public schools. Text-based use of a thesaurus is recommended and is illustrated against the background of an investigation of a thesaurus and thematic dictionary sections. Recommendations for improvement of lexicographical products are made from a pedagogical lexicographic perspective to ensure optimal use of a thesaurus in a language education setting.Die onderwerp van die artikel is die ontsluitingsmoontlikhede van tesourusgebruik in 'n Afrikaanse taalonderrigkonteks in die skoolklaskamer. Die tesourus is een van die oudste naslaanwerke in die geskiedenis van leksikografie; tog word dit nie in die aantal navorsingsartikels rakende die onderwerp gereflekteer nie. 'n Tesourus blyk nie 'n algemene fokuspunt van leksikografiese navorsing of opvoedkundige leksikografiese navorsing te wees nie. In 'n poging om die gaping in die literatuur te oorbrug, word daar oor die doel en leksikografiese funksie van 'n tesourus besin, veral in 'n taalonderrigkonteks. Die taalonderrigkonteks word vervolgens belig met verwysing na voorgestelde tesourusgebruik in skoolkurrikuladokumente, aangesien dit rigtinggewend is vir onderrigraamwerke in skole. Teksgebaseerde tesourusgebruik in die taalonderrigkonteks word aanbeveel en gemotiveer teen die agtergrond van 'n ondersoek na 'n tesourus en tematiese woordeboekafdelings. Aanbevelings vir enkele verbeterings tot leksikografiese produkte word vanuit 'n opvoedkundige leksikografiese perspektief gemaak ten einde optimale gebruik van 'n tesourus in 'n taalonderrigkonteks te verseker.https://lexikos.journals.ac.za/pub/aboutPublishers versio

    Impact of language skills and system experience on medical information retrieval

    No full text

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    A framework for an adaptable and personalised e-learning system based on free web resources

    Get PDF
    An adaptable and personalised E-learning system (APELS) architecture is developed to provide a framework for the development of comprehensive learning environments for learners who cannot follow a conventional programme of study. The system extracts information from freely available resources on the Web taking into consideration the learners' background and requirements to design modules and a planner system to organise the extracted learning material to facilitate the learning process. The process is supported by the development of an ontology to optimise and support the information extraction process. Additionally, natural language processing techniques are utilised to evaluate a topic's content against a set of learning outcomes as defined by standard curricula. An application in the computer science field is used to illustrate the working mechanisms of the proposed framework and its evaluation based on the ACM/IEEE Computing Curriculum.A variety of models are developed and techniques used to support the adaptability and personalisation features of APELS. First, a learner’s model was designed by incorporating students’ details, students’ requirements and the domain they wish to study into the system. In addition, learning style theories were adopted as a way of identifying and categorising the individuals, to improve their on-line learning experience and applying it to the learner’s model. Secondly, the knowledge extraction model is responsible for the extraction of the learning resources from the Web that would satisfy the learners’ needs and learning outcomes. To support this process, an ontology was developed to retrieve the relevant information as per users’ needs. In addition, it transforms HTML documents to XHTML to provide the information in an accessible format and easier for extraction and comparison purposes. Moreover, a matching process was implemented to compute the similarity measure between the ontology concepts that are used in the ACM/IEEE Computer Science Curriculum and those extracted from the websites. The website with the highest similarity score is selected as the best matching website that satisfies the learners’ request. A further step is required to evaluate whether the content extracted by the system is the appropriate learning material of the subject. For this purpose, the learning outcome validation process is added to ensure that the content of the selected websites will enable the appropriate learning based to the learning outcomes set by standard curricula. Finally, the information extracted by the system will be passed to a Planner model that will structure the content into lectures, tutorials and workshops based on some predefined learning constraints. The APELS system provides a novel addition to the field of adaptive E-learning systems by providing more personalized learning material to each user in a time-efficient way saving his/her time looking for the right course from the hugely available resources on the Web or going through the large number of websites and links returned by traditional search engines. The APELS system will adapt better to the learner’s style based on feedback and assessment once the learning process is initiated by the learner. The APELS system is expected to develop over time with more users
    corecore