4 research outputs found

    An approach to the automatic transfer of lexical units from english FrameNet to spanish by using WordNet

    Get PDF
    [EN] In the field of Natural Language Processing, linguistic resources are structured and detailed descriptions of a certain language. They are considered as key elements for studying languages and developing applications. However, these repositories are slow and difficult to build, and most of them focuses on English. This work tries to improve the lack of linguistic resources in Spanish by transferring part of the information encoded in the FrameNet project into Spanish. For this purpose, we developed an automatic procedure able to align the different frame predicates with the WordNet synsets that best represent them. Our system reaches an 88% precision and makes it possible to reuse this semantic resource for linguistic studies in Spanish.[ES] Dentro del procesamiento del lenguaje, los recursos lingüísticos son descripciones estructuradas y detalladas de una determinada lengua, esenciales a la hora de estudiar el lenguaje y crear aplicaciones. Sin embargo, estos repositorios son bastantes lentos y difíciles de construir, y además la mayoría de ellos se centra en el inglés. Este trabajo trata de paliar, en cierta medida, el problema de escasez de recursos disponibles en castellano, mediante la traducción al español de las unidades léxicas de los marcos situacionales del proyecto FrameNet, un recurso on-line para el inglés basado en la semántica de marcos. Para ello desarrollamos un procedimiento capaz de asociar los diferentes predicados de cada marco con los synsets de WordNet, una base de datos léxica que organiza el vocabulario según conceptos y relaciones semánticas. Como tendremos oportunidad de comprobar, el sistema alcanza una precisión en torno al 88% y abre la puerta a su uso en estudios lingüísticos de diversa índole en español. Esta publicación ha sido financiada por el proyecto "Comunicación especializada y terminografía: usos terminológicos relacionados con los contenidos y perspectivas actuales de la semántica léxica" (Ref. FFI2014-54609-P) del Programa Estatal de Fomento de la Investigación Científica y Técnica de Excelencia. Subprograma Estatal de Generación del Conocimiento (convocatoria 2014 del Ministerio de Economía y Competitividad) y se inscribe en el proyecto "Bases metodológicas y recursos digitales para la creación de un léxico relacional de usos terminológicos de la semántica léxica (TerLexNet)", solicitado en la Convocatoria 2020 de Proyectos de I+D+i del Ministerio de Ciencia e Innovación. Igualmente cuenta con el apoyo del proyecto "Lingüística y nuevas tecnologías de la información: la creación de un repositorio electrónico de documentación lingüística" (Ref. FEDER-UCA18-107788), perteneciente a los Proyectos de I+D+i del Programa Operativo FEDER Andalucía 2014-2020, y "Lingüística y Humanidades Digitales: base de datos relacional de documentación lingüística" (Ref. PY18-FR-2511) de la Convocatoria 2018 de Ayudas a proyectos I+D+i (Modalidad “Frontera Consolidado”) en el ámbito del Plan Andaluz de Investigación, Desarrollo e Innovación (Junta de Andalucía, PAIDI 2020).Crespo Miguel, M. (2021). Aproximación al trasvase automático de predicados de FrameNet al español mediante WordNet. Revista de Lingüística y Lenguas Aplicadas. 16(1):49-62. https://doi.org/10.4995/rlyla.2021.14408OJS4962161Arano, S. (2005). "Thesauruses and ontologies". Hipertext.net, 3. Disponible en https://www.upf.edu/hipertextnet/en/numero-3/tesauros.htmlBaker, C., Fillmore, C. J. and Lowe, J. B. (1998). "The Berkeley FrameNet project", en C. Boitet and P. Whitelock (eds.), Proceedings of the Thirty-Sixth Annual Meeting of the Association for Computational Linguistics and Seventeenth International Conference on Computational Linguistics (86-90). San Francisco, California: Morgan Kaufmann Publishers. https://doi.org/10.3115/980845.980860Bel, N., Bel, S., Espeja, S., Marimon, M., Villegas, M. (2008). "El proyecto CLARIN: una infraestructura de investigación científica para las humanidades y las ciencias sociales". Digithum (10). Artículo en línea]. https://doi.org/10.7238/d.v0i10.501Benfeng, C., y Fung, P. (2004). "Automatic Construction of an English-Chinese Bilingual FrameNet". Proceedings of HLT-NAACL 2004: Short Papers. Boston, Massachusetts: ACL, 29-32.Burchardt, A., Erk, K. y Frank, A. (2005). "A WordNet detour to FrameNet". Sprachtechnologie, mobile Kommunikation und linguistische Resourcen, 8, 408-421.Burchardt, A., Erk, K., Frank, A., Kowalski, A., Padó, S. and Pinkal, M. (2006). "The SALSA Corpus: a German Corpus Resourcefor Lexical Semantics". Proceedings of Language Resources and Evauation Conference, 2006 (969-974). Genova: LREC. URL: http://www.lrec-conf.org/proceedings/lrec2006/pdf/339_pdf.pdfCandito, M., Amsili, P., Barque, L., Benamara, F., de Chalendar, G., Djemaa, M., Haas, P., Huyghe, R., Yannick Mathieu, Y., Muller, P., Sagot, B., Vieu, L. (2014). "Developing a French FrameNet: Methodology and First results". Proceedings of the The 9th edition of the Language Resources and Evaluation Conference. Reykjavik: ELRA, 1-9.Casas Gómez, Miguel (2014). "A Typology of Relationships in Semantics". Quaderni di semantica: Rivista Internazionale di Semantica Teorica e Applicata, Vol. 35 (2), 45-74.Casas Gómez, M. (2020). "Conceptual relationships and their methodological representation in a dictionary of the terminological uses of lexical semantics". Fachsprache: Internationale Zeitschrift für Fachsprachenforschung-didaktik und Terminologie, 42/1-2, 2-26. https://doi.org/10.24989/fs.v42i1-2.1789Civit Torruella, M., Aldezabal Roteta, I., Pociello Irigoyen, E., Taulé Delor, M., Aparicio Mera, J.J., Màrquez Villodre, L., Navarro Colorado, B., Castellví Vives, J. y Martí Antonín, M.A. (2005). "3LB-LEX: léxico verbal con frames sintáctico-semánticos". Procesamiento del Lenguaje Natural 35, 367-373.Crespo, M. (2021). Automatic Corpus-based translation of a Spanish FrameNet medical Glossary. Colección Lingüística. Sevilla: Universidad de SevillaCristea, D., y Pistol, I.C. (2012). "Multilingual linguistic workflows". Multilingual Processing in Eastern and Southern EU Languages. Low-resourced Technologies and Translation, Cambridge Scholars Publishing, UK, 228-246.Ferrández, Ó., Ellsworth, M., Muñoz, R., y Baker, C. F. (2010). "Aligning FrameNet and WordNet based on Semantic Neighborhoods". Proceedings of the International Conference on Language Resources and Evaluation, LREC 2010. Malta: ELRA, 310-314.Fillmore, C. J. (1977). "Scenes and Frames Semantics", en A. Zampolli (Ed.), Linguistic Structures Processing (55-82). Amsterdam: North Holland.Friberg Heppin, K., y Toporowska Gronostaj, M. (2012). "The Rocky Road towards a Swedish FrameNet - Creating SweFN". Proceedings of the Eighth conference on International Language Resources and Evaluation (LREC-2012). Estambul: ELRA, -261.Gilchrist, A. (2003). "Thesauri, taxonomies and ontologies-an etymological note". Journal of documentation, 59(1), 7-18. https://doi.org/10.1108/00220410310457984Hayoun, A. y Elhadad, M. (2016). "The Hebrew FrameNet Project". Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) (4341-4347). Portorož, Slovenia: European Language Resources Association (ELRA).Hilera, J. R., Pagés, C., Martínez, J.J., Gutiérrez, J.A., y De-Marcos, L. (2010). "An evolutive process to convert glossaries into ontologies". Information technology and libraries, 29(4), 195-204. https://doi.org/10.6017/ital.v29i4.3130Johansson, R., y Nugues, P. (2007). "Using WordNet to Extend FrameNet Coverage", en P. Nugues, y R. Johansson (Eds.), LU-CS-TR: 2007-240. Lund: Department of Computer Science, Lund University, 27-30.Kim, J., Hahm, Y., y Choi, K. (2016). "Korean FrameNet Expansion Based on Projection of Japanese FrameNet". Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: System Demonstrations. Osaka: ACL, 175-179.Kipper, K., Trang Dang, H., Schuler, W., y Palmer, M. (2000). "Building a class-based verb lexicon using tags". Proceedings of the Fifth International Workshop on Tree Adjoining Grammar and Related Frameworks (TAG+5) (147-155). Paris: ACL.Kurdi, M.Z. (2017). Natural language processing and computational linguistics 2: semantics, discourse and applications (Vol. 2). Hoboken, Nueva Jersey: John Wiley & Sons. https://doi.org/10.1002/9781119419686Laparra, E., Rigau, G. Cuadros, M. (2010). "Exploring the integration of WordNet and FrameNet". Proceedings of the 5th Global WordNet Conference. Mumbai: Global WordNet Association, 1-6.Liping, Y., y Kaiying, L. (2005). "Building Chinese FrameNet database". Proceedigs of the 2005 International Conference on Natural Language Processing and Knowledge Engineering. Wuhan: IEEE, 301-306. https://doi.org/10.1109/NLPKE.2005.1598752López de Lacalle, M., Laparra, E., y Rigau, G. (2014). "Predicate Matrix: extending SemLink through WordNet mappings". Proceedings of the Ninth International Conference on Language Resources and EvaluationMartí Antonín, M.A., y Taulé Delor, M. (2014). Computational Hispanic Linguistics. The Routledge Handbook of Hispanic Applied Linguistics. London: Taylor and Francis, (350-370).McCrae, J.P., y Cimiano, P. (2015). "Linghub: a Linked Data based portal supporting the discovery of language resources". Proceedings of the 11th International Conference on Semantic Systems, Semantics, 1481. New York: Association for Computing Machinery, 88-91.Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., y Miller, K. (ed.) (1993). Five Papers on WordNet, cls report 43. Tecnical report. New Jersey: Cognitive Science Laboratory. Princeton University.Miller, J. E., y Brown, K. (2013). The Cambridge dictionary of linguistics. Cambridge: Cambridge University Press.Minsky, M. (1975). "A framework for representing knowledge". Psychology of Computer Vision. New York: McGrawHill, 211-277.Nespore-Berzkalne G., Saulite, B., y Gruzitis, N. (2018). "Latvian FrameNet: Cross-Lingual Issue". Human Language Technologies - The Baltic Perspective, 307. Amsterdam: IOS Press, 96-103.Ohara, K., Fujii, S., Ohori, T., Suzuki, R., Saito, H., y Ishizaki, S. (2004). "The Japanese FrameNet Project: An Introduction". LREC 2004: The Fourth International Conference on Language Resources and Evaluation (249-254). Lisbon: LREC.Palmer, M., Gildea, D., y Kingsbury, P. (2005). "The Proposition Bank: An Annotated Corpus of Semantic Roles". Journal Computational Linguistics, 31, issue 1. MA: MIT Press Cambridge, 71-106. https://doi.org/10.1162/0891201053630264Pennacchiotti, M., De Cao, D., Basili, R., Croce, D., Roth, M. (2008). "Automatic induction of FrameNet lexical units". Proceedings of the 2008 conference on empirical methods in natural language. Honolulu: ACL, 457-465. https://doi.org/10.3115/1613715.1613773Pieterse, V., y Kourie, D. G. (2014). "Lists, taxonomies, lattices, thesauri and ontologies: paving a pathway through a terminological jungle". KO Knowledge Organization, 41(3), 217-229. https://doi.org/10.5771/0943-7444-2014-3-217Powers, D. M. (2011). "Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation". Journal of Machine Learning Technologies, 2, No. 1. (2011), 37-63.Ruppenhofer, J., Ellsworth, M., Petruck, M. R. L., Johnson, C. y Scheffczyk, J. (2006. FrameNet II: Extended Theory and Practice. URL: https://framenet2.icsi.berkeley.edu/docs/r1.7/book.pdfSalomão, M. (2009). "FrameNet Brasil: um trabalho em progresso". Calidoscópio 7(3), 171-182. https://doi.org/10.4013/cld.2009.73.01Subirats, C., y Petruck, M. R. L. (2003). "Surprise: Spanish FrameNet!". Proceedings of Proceedings of the Workshop on Frame Semantics at the XVII. International Congress of Linguists (CD-ROM). Prague: Matfyzpress.Subirats, C. (2013). "La integración de la semántica de marcos y la semántica de simulación: aplicaciones al procesamiento semántico automático del español", en Mª Luisa Calero and Mª Ángeles Hermosilla (eds.). Lingüística, Poética y Cognición. Córdoba: Servicio de Publicaciones de la Universidad de Córdoba, 307-337.Tonelli, S., y Pianta, E. (2009). "A novel approach to mapping FrameNet lexical units to WordNet synsets (short paper)". Proceedings of the Eight International Conference on Computational Semantics. Tilburg: ACL, 342-345. https://doi.org/10.3115/1693756.1693800Torrent, T.T., Ellsworth, M., Baker, C.F. and Matos, E. E. (2018). "The Multilingual FrameNet Shared Annotation Task: A Preliminary Report". Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) (62-68). Miyazaki: ELRA.Van Uytvanck, D., Zinn, C., Broeder, D., Wittenburg, P., Gardelleni, M. (2010). "Virtual language observatory: The portal to the language resources and technology universe". Proceedings of the Seventh conference on International Language Resources and Evaluation [LREC 2010]. Malta: European Language Resources Association (ELRA), pp. 900-903.Vossen, P. (ed.) (1998): EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Dordrecht: Kluwer Academic Publishers. https://doi.org/10.1007/978-94-017-1491-4Vossen, P. (ed.) (2002): EuroWordNet: general document. URL: http://vossen.info/docs/2002/EWNGeneral.pdfVilches-Blázquez, L.M., García Silva, A., y Villazón Terrazas, B. (2009). Construcción de ontologías a partir de tesauros. Semántica Espacial y descubrimiento de conocimientos para desarrollo sostenible. La Habana: CUJAE, 59-78

    Annotation syntaxico-sémantique des actants en corpus spécialisé

    Get PDF
    L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.Semantic role annotation is a process that aims to assign labels such as Agent, Patient, Instrument, Location, etc. to actants or circumstants (also called arguments or adjuncts) of predicative lexical units. This process often requires the use of rich lexical resources or corpora in which sentences are annotated manually by linguists. The automatic approaches (statistical or machine learning) are based on corpora. Previous work was performed for the most part in English which has rich resources, such as PropBank, VerbNet and FrameNet. These resources were used to serve the automated annotation systems. This type of annotation in other languages for which no corpora of annotated sentences are available often use FrameNet by projection. Although a resource such as FrameNet is necessary for the automated annotation systems and the manual annotation by linguists of a large number of sentences is a tedious and time consuming work. We have proposed an automated system to help linguists in this task so that they have only to validate annotations proposed. Our work focuses on verbs that are more likely than other predicative units (adjectives and nouns) to be accompanied by actants realized in sentences. These verbs are specialized terms of the computer science and Internet domains (ie. access, configure, browse, download) whose actantial structures have been annotated manually with semantic roles. The actantial structure is based on principles of Explanatory and Combinatory Lexicology, LEC of Mel’čuk and appeal in part (with regard to semantic roles) to the notion of Frame Element as described in the theory of frame semantics (FS) of Fillmore. What these two theories have in common is that they lead to the construction of dictionaries different from those resulting from the traditional theories. These manually annotated verbal units in several contexts constitute the specialized corpus that our work will use. Our system designed to assign automatically semantic roles to actants is based on rules and classifiers trained on more than 2300 contexts. We are limited to a restricted list of roles for certain roles in our corpus have not enough examples manually annotated. In our system, we addressed the roles Patient, Agent and destination that the number of examples is greater than 300. We have created a class that we called Autre which we bring to gether the other roles that the number of annotated examples is less than 100. We subdivided the annotation task in the identification of participant actants and circumstants and the assignment of semantic roles to actants that contribute to the sense of the verbal lexical unit. We parsed, with Syntex, the sentences of the corpus to extract syntactic informations that describe the participants of the verbal lexical unit in the sentence. These informations are used as features in our learning model. We have proposed two techniques for the task of participant detection: the technique based in rules and machine learning. These same techniques are used for the task of classification of these participants into actants and circumstants. We proposed to the task of assigning semantic roles to the actants, a partitioning method (clustering) semi supervised of instances that we have compared to the method of semantic role classification. We used CHAMELEON, an ascending hierarchical algorithm

    Automatic construction of an English-Chinese bilingual FrameNet

    No full text
    corecore