8 research outputs found

    The First Cross-Lingual Challenge on Recognition, Normalization and Matching of Named Entities in Slavic Languages

    Get PDF
    This paper describes the outcomes of the First Multilingual Named Entity Challenge in Slavic Languages. The Challenge targets recognizing mentions of named entities in web documents, their normalization/lemmatization, and cross-lingual matching. The Challenge was organized in the context of the 6th Balto-Slavic Natural Language Processing Workshop, co-located with the EACL-2017 conference. Eleven teams registered for the evaluation, two of which submitted results on schedule, due to the complexity of the tasks and short time available for elaborating a solution. The reported evaluation figures reflect the relatively higher level of complexity of named entity tasks in the context of Slavic languages. Since the Challenge extends beyond the date of the publication of this paper, updates to the results of the participating systems can be found on the official web page of the Challenge.Peer reviewe

    An open stylometric system based on multilevel text analysis

    Get PDF
    An open stylometric system based on multilevel text analysis Stylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user’s perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications.   Otwarty system stylometryczny wykorzystujący wielopoziomową analizę języka  Zastosowania metod stylometrycznych na ogół ograniczają się do kilku typowych problemów badawczych, takich jak atrybucja autorska, styl gatunków literackich czy studia nad zróżnicowaniem stylistycznym kobiet i mężczyzn. Z pewnością dałoby się je z powodzeniem zastosować również do wielu innych problemów klasyfikacji tekstów, gdyby tylko owe metody oraz odpowiednie narzędzia były bardziej dostępne dla uczonych reprezentujących różne dyscypliny nauk humanistycznych i społecznych. Artykuł niniejszy omawia założenia teoretyczne oraz w pełni funkcjonalny prototyp otwartego systemu stylometrycznego, którego szerokie zastosowanie umożliwią dwie jego cechy: elastyczność techniczna oraz dostosowywalność do różnych pytań badawczych. System opiera się na instalacji serwerowej sprzęgniętej z sieciowym interfejsem użytkownika. Uwalnia to użytkownika od konieczności instalowania jakichkolwiek dodatkowych programów. Jednocześnie system oferuje wiele sposobów analizowania tekstów nie tylko na poziomie leksykalnym, lecz także poprzez cechy językowe niskiego poziomu. Daje to możliwość stosowania systemu na wiele różnych sposobów, od typowych testów stylometrycznych do analizy semantycznej dokumentów. Wewnętrzna architektura systemu składa się z wielu elementów znanych ze swej funkcjonalności, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto służącego do zaawansowanej analizy skupień. Artykuł omawia: (1) Koncepcję całego systemu, postrzeganą z punktu widzenia użytkownika, (2) Architekturę systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy językowe służące do opisu dokumentów, (4) Zastosowanie modułów analizy danych, takich jak Stylo czy Cluto. W artykule zostały też przedstawione przykładowe zastosowania systemu

    An open stylometric system based on multilevel text analysis

    Get PDF
    An open stylometric system based on multilevel text analysisStylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user’s perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications. Otwarty system stylometryczny wykorzystujący wielopoziomową analizę języka Zastosowania metod stylometrycznych na ogół ograniczają się do kilku typowych problemów badawczych, takich jak atrybucja autorska, styl gatunków literackich czy studia nad zróżnicowaniem stylistycznym kobiet i mężczyzn. Z pewnością dałoby się je z powodzeniem zastosować również do wielu innych problemów klasyfikacji tekstów, gdyby tylko owe metody oraz odpowiednie narzędzia były bardziej dostępne dla uczonych reprezentujących różne dyscypliny nauk humanistycznych i społecznych. Artykuł niniejszy omawia założenia teoretyczne oraz w pełni funkcjonalny prototyp otwartego systemu stylometrycznego, którego szerokie zastosowanie umożliwią dwie jego cechy: elastyczność techniczna oraz dostosowywalność do różnych pytań badawczych. System opiera się na instalacji serwerowej sprzęgniętej z sieciowym interfejsem użytkownika. Uwalnia to użytkownika od konieczności instalowania jakichkolwiek dodatkowych programów. Jednocześnie system oferuje wiele sposobów analizowania tekstów nie tylko na poziomie leksykalnym, lecz także poprzez cechy językowe niskiego poziomu. Daje to możliwość stosowania systemu na wiele różnych sposobów, od typowych testów stylometrycznych do analizy semantycznej dokumentów. Wewnętrzna architektura systemu składa się z wielu elementów znanych ze swej funkcjonalności, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto służącego do zaawansowanej analizy skupień. Artykuł omawia: (1) Koncepcję całego systemu, postrzeganą z punktu widzenia użytkownika, (2) Architekturę systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy językowe służące do opisu dokumentów, (4) Zastosowanie modułów analizy danych, takich jak Stylo czy Cluto. W artykule zostały też przedstawione przykładowe zastosowania systemu

    Temporal Expressions in Polish Corpus KPWr

    Get PDF
    Temporal Expressions in Polish Corpus KPWrThis article presents the result of the recent research in the interpretation of Polish expressions that refer to time. These expressions are the source of information when something happens, how often something occurs or how long something lasts. Temporal information, which can be extracted from text automatically, plays significant role in many information extraction systems, such as question answering, discourse analysis, event recognition and many more. We prepared PLIMEX — a broad description of Polish temporal expressions with annotation guidelines, based on the state-of-the-art solutions for English, mainly TimeML specification. We also adapted the solution to capture the local semantics of temporal expressions, called LTIMEX. Temporal description also supports further event identification and extends event description model, focusing at anchoring events in time, ordering events and reasoning about the persistence of events. We prepared the specification, which is designed to address these issues and we annotated all documents in Polish Corpus of Wroclaw University of Technology (KPWr) using our annotation guidelines

    Representation and Processing of Composition, Variation and Approximation in Language Resources and Tools

    Get PDF
    In my habilitation dissertation, meant to validate my capacity of and maturity for directingresearch activities, I present a panorama of several topics in computational linguistics, linguisticsand computer science.Over the past decade, I was notably concerned with the phenomena of compositionalityand variability of linguistic objects. I illustrate the advantages of a compositional approachto the language in the domain of emotion detection and I explain how some linguistic objects,most prominently multi-word expressions, defy the compositionality principles. I demonstratethat the complex properties of MWEs, notably variability, are partially regular and partiallyidiosyncratic. This fact places the MWEs on the frontiers between different levels of linguisticprocessing, such as lexicon and syntax.I show the highly heterogeneous nature of MWEs by citing their two existing taxonomies.After an extensive state-of-the art study of MWE description and processing, I summarizeMultiflex, a formalism and a tool for lexical high-quality morphosyntactic description of MWUs.It uses a graph-based approach in which the inflection of a MWU is expressed in function ofthe morphology of its components, and of morphosyntactic transformation patterns. Due tounification the inflection paradigms are represented compactly. Orthographic, inflectional andsyntactic variants are treated within the same framework. The proposal is multilingual: it hasbeen tested on six European languages of three different origins (Germanic, Romance and Slavic),I believe that many others can also be successfully covered. Multiflex proves interoperable. Itadapts to different morphological language models, token boundary definitions, and underlyingmodules for the morphology of single words. It has been applied to the creation and enrichmentof linguistic resources, as well as to morphosyntactic analysis and generation. It can be integratedinto other NLP applications requiring the conflation of different surface realizations of the sameconcept.Another chapter of my activity concerns named entities, most of which are particular types ofMWEs. Their rich semantic load turned them into a hot topic in the NLP community, which isdocumented in my state-of-the art survey. I present the main assumptions, processes and resultsissued from large annotation tasks at two levels (for named entities and for coreference), parts ofthe National Corpus of Polish construction. I have also contributed to the development of bothrule-based and probabilistic named entity recognition tools, and to an automated enrichment ofProlexbase, a large multilingual database of proper names, from open sources.With respect to multi-word expressions, named entities and coreference mentions, I pay aspecial attention to nested structures. This problem sheds new light on the treatment of complexlinguistic units in NLP. When these units start being modeled as trees (or, more generally, asacyclic graphs) rather than as flat sequences of tokens, long-distance dependencies, discontinu-ities, overlapping and other frequent linguistic properties become easier to represent. This callsfor more complex processing methods which control larger contexts than what usually happensin sequential processing. Thus, both named entity recognition and coreference resolution comesvery close to parsing, and named entities or mentions with their nested structures are analogous3to multi-word expressions with embedded complements.My parallel activity concerns finite-state methods for natural language and XML processing.My main contribution in this field, co-authored with 2 colleagues, is the first full-fledged methodfor tree-to-language correction, and more precisely for correcting XML documents with respectto a DTD. We have also produced interesting results in incremental finite-state algorithmics,particularly relevant to data evolution contexts such as dynamic vocabularies or user updates.Multilingualism is the leitmotif of my research. I have applied my methods to several naturallanguages, most importantly to Polish, Serbian, English and French. I have been among theinitiators of a highly multilingual European scientific network dedicated to parsing and multi-word expressions. I have used multilingual linguistic data in experimental studies. I believethat it is particularly worthwhile to design NLP solutions taking declension-rich (e.g. Slavic)languages into account, since this leads to more universal solutions, at least as far as nominalconstructions (MWUs, NEs, mentions) are concerned. For instance, when Multiflex had beendeveloped with Polish in mind it could be applied as such to French, English, Serbian and Greek.Also, a French-Serbian collaboration led to substantial modifications in morphological modelingin Prolexbase in its early development stages. This allowed for its later application to Polishwith very few adaptations of the existing model. Other researchers also stress the advantages ofNLP studies on highly inflected languages since their morphology encodes much more syntacticinformation than is the case e.g. in English.In this dissertation I am also supposed to demonstrate my ability of playing an active rolein shaping the scientific landscape, on a local, national and international scale. I describemy: (i) various scientific collaborations and supervision activities, (ii) roles in over 10 regional,national and international projects, (iii) responsibilities in collective bodies such as program andorganizing committees of conferences and workshops, PhD juries, and the National UniversityCouncil (CNU), (iv) activity as an evaluator and a reviewer of European collaborative projects.The issues addressed in this dissertation open interesting scientific perspectives, in whicha special impact is put on links among various domains and communities. These perspectivesinclude: (i) integrating fine-grained language data into the linked open data, (ii) deep parsingof multi-word expressions, (iii) modeling multi-word expression identification in a treebank as atree-to-language correction problem, and (iv) a taxonomy and an experimental benchmark fortree-to-language correction approaches

    Tune your brown clustering, please

    Get PDF
    Brown clustering, an unsupervised hierarchical clustering technique based on ngram mutual information, has proven useful in many NLP applications. However, most uses of Brown clustering employ the same default configuration; the appropriateness of this configuration has gone predominantly unexplored. Accordingly, we present information for practitioners on the behaviour of Brown clustering in order to assist hyper-parametre tuning, in the form of a theoretical model of Brown clustering utility. This model is then evaluated empirically in two sequence labelling tasks over two text types. We explore the dynamic between the input corpus size, chosen number of classes, and quality of the resulting clusters, which has an impact for any approach using Brown clustering. In every scenario that we examine, our results reveal that the values most commonly used for the clustering are sub-optimal

    Smart ERP: How business processes in small- and medium-sized service enterprises are affected by artificial intelligence.

    Get PDF
    En los últimos años, la inteligencia artificial (IA) se ha integrado en más facetas de la vida. En el aspecto de los hogares inteligentes, la IA puede controlar el entorno en función de las preferencias aprendidas de los residentes o en los automóviles que apoya al conductor, mientras que los asistentes personales inteligentes (IPA) ayudan con tareas habituales, como concertar citas o proporcionar información. Esta silenciosa pero floreciente integración de la IA en otras áreas de la vida no se limita a las esferas privadas; las experiencias privadas con IA están aumentando las expectativas de los procesos inteligentes en las aplicaciones empresariales y, por lo tanto, la IA se abre paso cada vez más en los procesos empresariales. El uso de IPA en aplicaciones comerciales como el sistema de planificación de recursos empresariales (ERP) es un aspecto tan importante como la integración del aprendizaje automático (ML) en los procesos comerciales. Sin embargo, las pequeñas y medianas empresas (PYME) se enfrentan particularmente al desafío de integrar la IA en los procesos comerciales, ya que generalmente están luchando con desafíos existentes como la digitalización. La optimización de procesos a través de la IA es un desafío adicional porque, según la literatura, las pymes a menudo no tienen los conocimientos necesarios para integrar la IA por sí mismas. De acuerdo con la literatura, las PyMEs también a menudo carecen de casos de uso concretos en los que la IA pueda integrarse en los procesos comerciales de manera significativa y valiosa. Aquí es donde entra esta tesis y desarrolla casos de uso concretos adaptados a los procesos de las pymes alemanas en el sector de servicios con el fin de optimizarlos con IA. Sobre la base de estos casos de uso, se creó un marco que proporciona funciones IPA y ML y se puede integrar sin problemas en un sistema ERP. La disertación está guiada por la pregunta de investigación: ʺ¿Qué funciones específicas de IA e IPA se reconocen como útiles en el contexto empresarial de las PYME en el sector de servicios?ʺ La implementación fue realizada por Design Science Research como un marco para cumplir con los requisitos tanto desde una perspectiva científica como empresarial. Como parte de esta implementación, se desarrolló una IPA a través de la cual se puede recuperar información de un sistema ERP y también ingresar mediante comandos de voz. Además, se creó una función completamente nueva que permite a la IPA dar al usuario retroalimentación audiovisual sobre una descripción gráfica de modo que tenga lugar una explicación y preinterpretación de los valores mostrados. Esto introduce un nuevo elemento de investigación, hasta ahora inexplorado, que ha sido analizado en el marco de metodologías cuantitativas y cualitativas sobre su utilidad y los factores relevantes que influyen en su valor agregado. A través de la integración en casos de uso, tanto el marco IPA como el ML se exploran de manera práctica. En el primer paso, se realizó una encuesta cuantitativa en la que los usuarios pudieron evaluar sus experiencias con el prototipo de IPA y comunicar mejoras funcionales. Sobre la base de esta retroalimentación, el prototipo se expandió y se combinó con el marco ML. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. Además, se consultó el potencial de optimización para procesarlos en el marco de un análisis de costo‐beneficio. Dentro del análisis de costo‐beneficio, el potencial de ahorro de costos determinado se comparó con los costos de implementación esperados para determinar en qué escenarios una integración de IA tiene sentido económico. Para validar el potencial de ahorro estimado por los expertos, se realizó un experimento en el que se comparó la velocidad de ingresar notas de venta mediante teclado y ratón con ingresarlas mediante comandos de voz a través del IPA. Con base en el análisis de datos, se pudo demostrar que la introducción de la IA en los procesos comerciales tiene un potencial de ahorro de costos de más del 30%. Se debe enfatizar que el potencial de ahorro de costos de la API para la recuperación y entrada de información está significativamente por encima de este promedio en más del 37%. De acuerdo con la evaluación científica de los casos de uso en combinación con los factores de influencia identificados y el potencial de optimización, se desarrolló una guía sobre cómo se pueden mejorar los procesos en las PYMES a través de la IA. Esta directriz, en combinación con el prototipo, permite a las pymes operar mejor el uso de la IA. La implicación teórica más importante es que la implementación del modo de explicación para las API en el entorno empresarial ha creado un elemento de investigación completamente nuevo y se ha introducido en la comunidad académica. En el área de las implicaciones prácticas, se debe enfatizar que el análisis de 16 casos de uso relevantes para la práctica brindó una descripción general completa de las implementaciones de IA para las PYMES en la industria de servicios. Los responsables de la toma de decisiones pueden adaptar los procesos descritos para beneficiarse directamente del potencial de optimización. La directriz antes mencionada puede ayudar a los responsables de la toma de decisiones a seleccionar los procesos adecuados y proporcionar orientación para el proceso de implementación. Además, fue posible mostrar de una manera científicamente sólida el potencial de optimización de la IA en los procesos comerciales y qué factores influyentes son de particular relevancia para la realización de este potencial de optimización.Administración y Dirección de Empresa
    corecore