    Towards Reliable and Inclusive Natural Language Generation

    Natural language generation (NLG) is an important subfield of natural language processing (NLP) that produces natural language output. Despite notable advancements made by large-scale pre-trained language models in NLG, there remain several unresolved challenges. This thesis aims to enhance NLG from two significant aspects: reliability and inclusiveness. For reliability, on the one hand, we introduce novel training objectives that improve the alignment of language generation models with desired model behaviors. To improve the answerability of model-generated questions, we use a question answering model to provide additional rewards to a question generation model, encouraging the production of more answerable questions. In addition, we propose to train language models with a mixture of forward and reverse cross-entropies, demonstrating that the resulting models yield better generated text without complex decoding strategies. On the other hand, we propose novel evaluation methods to assess the performance of NLG models accurately and comprehensively. By combining human and automatic evaluations, we strike a balance between reliability and reproducibility. We delve into the unexplored issue of unfaithfulness in extractive summaries and conclude that extractive summarization does not guarantee faithfulness. For inclusiveness, we extend the coverage of NLG techniques to low-resource or endangered languages. We develop the first machine translation system for supporting translation between Cherokee, an endangered Native American language, and English, and we propose a roadmap for utilizing NLP to support language revitalization efforts. Additionally, we investigate the underrepresentation of low-resource languages during multilingual tokenization, a crucial data preprocessing step in training multilingual NLG models, and we present best practices for training multilingual tokenizers. Overall, this thesis works towards enhancing the trustworthiness of NLG models in practice and facilitating support for a more diverse range of languages worldwide.Doctor of Philosoph

    Automatic understanding of multimodal content for Web-based learning

    Web-based learning has become an integral part of everyday life for all ages and backgrounds. On the one hand, the advantages of this learning type, such as availability, accessibility, flexibility, and cost, are apparent. On the other hand, the oversupply of content can lead to learners struggling to find optimal resources efficiently. The interdisciplinary research field Search as Learning is concerned with the analysis and improvement of Web-based learning processes, both on the learner and the computer science side. So far, automatic approaches that assess and recommend learning resources in Search as Learning (SAL) focus on textual, resource, and behavioral features. However, these approaches commonly ignore multimodal aspects. This work addresses this research gap by proposing several approaches that address the question of how multimodal retrieval methods can help support learning on the Web. First, we evaluate whether textual metadata of the TIB AV-Portal can be exploited and enriched by semantic word embeddings to generate video recommendations and, in addition, a video summarization technique to improve exploratory search. Then we turn to the challenging task of knowledge gain prediction that estimates the potential learning success given a specific learning resource. We used data from two user studies for our approaches. The first one observes the knowledge gain when learning with videos in a Massive Open Online Course (MOOC) setting, while the second one provides an informal Web-based learning setting where the subjects have unrestricted access to the Internet. We then extend the purely textual features to include visual, audio, and cross-modal features for a holistic representation of learning resources. By correlating these features with the achieved knowledge gain, we can estimate the impact of a particular learning resource on learning success. We further investigate the influence of multimodal data on the learning process by examining how the combination of visual and textual content generally conveys information. For this purpose, we draw on work from linguistics and visual communications, which investigated the relationship between image and text by means of different metrics and categorizations for several decades. We concretize these metrics to enable their compatibility for machine learning purposes. This process includes the derivation of semantic image-text classes from these metrics. We evaluate all proposals with comprehensive experiments and discuss their impacts and limitations at the end of the thesis.Web-basiertes Lernen ist ein fester Bestandteil des Alltags aller Alters- und Bevölkerungsschichten geworden. Einerseits liegen die Vorteile dieser Art des Lernens wie Verfügbarkeit, Zugänglichkeit, Flexibilität oder Kosten auf der Hand. Andererseits kann das Überangebot an Inhalten auch dazu führen, dass Lernende nicht in der Lage sind optimale Ressourcen effizient zu finden. Das interdisziplinäre Forschungsfeld Search as Learning beschäftigt sich mit der Analyse und Verbesserung von Web-basierten Lernprozessen. Bisher sind automatische Ansätze bei der Bewertung und Empfehlung von Lernressourcen fokussiert auf monomodale Merkmale, wie Text oder Dokumentstruktur. Die multimodale Betrachtung ist hingegen noch nicht ausreichend erforscht. Daher befasst sich diese Arbeit mit der Frage wie Methoden des Multimedia Retrievals dazu beitragen können das Lernen im Web zu unterstützen. Zunächst wird evaluiert, ob textuelle Metadaten des TIB AV-Portals genutzt werden können um in Verbindung mit semantischen Worteinbettungen einerseits Videoempfehlungen zu generieren und andererseits Visualisierungen zur Inhaltszusammenfassung von Videos abzuleiten. Anschließend wenden wir uns der anspruchsvollen Aufgabe der Vorhersage des Wissenszuwachses zu, die den potenziellen Lernerfolg einer Lernressource schätzt. Wir haben für unsere Ansätze Daten aus zwei Nutzerstudien verwendet. In der ersten wird der Wissenszuwachs beim Lernen mit Videos in einem MOOC-Setting beobachtet, während die zweite eine informelle web-basierte Lernumgebung bietet, in der die Probanden uneingeschränkten Internetzugang haben. Anschließend erweitern wir die rein textuellen Merkmale um visuelle, akustische und cross-modale Merkmale für eine ganzheitliche Darstellung der Lernressourcen. Durch die Korrelation dieser Merkmale mit dem erzielten Wissenszuwachs können wir den Einfluss einer Lernressource auf den Lernerfolg vorhersagen. Weiterhin untersuchen wir wie verschiedene Kombinationen von visuellen und textuellen Inhalten Informationen generell vermitteln. Dazu greifen wir auf Arbeiten aus der Linguistik und der visuellen Kommunikation zurück, die seit mehreren Jahrzehnten die Beziehung zwischen Bild und Text untersucht haben. Wir konkretisieren vorhandene Metriken, um ihre Verwendung für maschinelles Lernen zu ermöglichen. Dieser Prozess beinhaltet die Ableitung semantischer Bild-Text-Klassen. Wir evaluieren alle Ansätze mit umfangreichen Experimenten und diskutieren ihre Auswirkungen und Limitierungen am Ende der Arbeit

    Proceedings of the Eighth Italian Conference on Computational Linguistics CliC-it 2021

    The eighth edition of the Italian Conference on Computational Linguistics (CLiC-it 2021) was held at Università degli Studi di Milano-Bicocca from 26th to 28th January 2022. After the edition of 2020, which was held in fully virtual mode due to the health emergency related to Covid-19, CLiC-it 2021 represented the first moment for the Italian research community of Computational Linguistics to meet in person after more than one year of full/partial lockdown

    Proceedings of the Seventh Italian Conference on Computational Linguistics CLiC-it 2020

    On behalf of the Program Committee, a very warm welcome to the Seventh Italian Conference on Computational Linguistics (CLiC-it 2020). This edition of the conference is held in Bologna and organised by the University of Bologna. The CLiC-it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after six years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges

    Smart ERP: How business processes in small- and medium-sized service enterprises are affected by artificial intelligence.

    En los últimos años, la inteligencia artificial (IA) se ha integrado en más facetas de la vida. En el aspecto de los hogares inteligentes, la IA puede controlar el entorno en función de las preferencias aprendidas de los residentes o en los automóviles que apoya al conductor, mientras que los asistentes personales inteligentes (IPA) ayudan con tareas habituales, como concertar citas o proporcionar información. Esta silenciosa pero floreciente integración de la IA en otras áreas de la vida no se limita a las esferas privadas; las experiencias privadas con IA están aumentando las expectativas de los procesos inteligentes en las aplicaciones empresariales y, por lo tanto, la IA se abre paso cada vez más en los procesos empresariales. El uso de IPA en aplicaciones comerciales como el sistema de planificación de recursos empresariales (ERP) es un aspecto tan importante como la integración del aprendizaje automático (ML) en los procesos comerciales. Sin embargo, las pequeñas y medianas empresas (PYME) se enfrentan particularmente al desafío de integrar la IA en los procesos comerciales, ya que generalmente están luchando con desafíos existentes como la digitalización. La optimización de procesos a través de la IA es un desafío adicional porque, según la literatura, las pymes a menudo no tienen los conocimientos necesarios para integrar la IA por sí mismas. De acuerdo con la literatura, las PyMEs también a menudo carecen de casos de uso concretos en los que la IA pueda integrarse en los procesos comerciales de manera significativa y valiosa. Aquí es donde entra esta tesis y desarrolla casos de uso concretos adaptados a los procesos de las pymes alemanas en el sector de servicios con el fin de optimizarlos con IA. Sobre la base de estos casos de uso, se creó un marco que proporciona funciones IPA y ML y se puede integrar sin problemas en un sistema ERP. La disertación está guiada por la pregunta de investigación: ʺ¿Qué funciones específicas de IA e IPA se reconocen como útiles en el contexto empresarial de las PYME en el sector de servicios?ʺ La implementación fue realizada por Design Science Research como un marco para cumplir con los requisitos tanto desde una perspectiva científica como empresarial. Como parte de esta implementación, se desarrolló una IPA a través de la cual se puede recuperar información de un sistema ERP y también ingresar mediante comandos de voz. Además, se creó una función completamente nueva que permite a la IPA dar al usuario retroalimentación audiovisual sobre una descripción gráfica de modo que tenga lugar una explicación y preinterpretación de los valores mostrados. Esto introduce un nuevo elemento de investigación, hasta ahora inexplorado, que ha sido analizado en el marco de metodologías cuantitativas y cualitativas sobre su utilidad y los factores relevantes que influyen en su valor agregado. A través de la integración en casos de uso, tanto el marco IPA como el ML se exploran de manera práctica. En el primer paso, se realizó una encuesta cuantitativa en la que los usuarios pudieron evaluar sus experiencias con el prototipo de IPA y comunicar mejoras funcionales. Sobre la base de esta retroalimentación, el prototipo se expandió y se combinó con el marco ML. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. Además, se consultó el potencial de optimización para procesarlos en el marco de un análisis de costo‐beneficio. Dentro del análisis de costo‐beneficio, el potencial de ahorro de costos determinado se comparó con los costos de implementación esperados para determinar en qué escenarios una integración de IA tiene sentido económico. Para validar el potencial de ahorro estimado por los expertos, se realizó un experimento en el que se comparó la velocidad de ingresar notas de venta mediante teclado y ratón con ingresarlas mediante comandos de voz a través del IPA. Con base en el análisis de datos, se pudo demostrar que la introducción de la IA en los procesos comerciales tiene un potencial de ahorro de costos de más del 30%. Se debe enfatizar que el potencial de ahorro de costos de la API para la recuperación y entrada de información está significativamente por encima de este promedio en más del 37%. De acuerdo con la evaluación científica de los casos de uso en combinación con los factores de influencia identificados y el potencial de optimización, se desarrolló una guía sobre cómo se pueden mejorar los procesos en las PYMES a través de la IA. Esta directriz, en combinación con el prototipo, permite a las pymes operar mejor el uso de la IA. La implicación teórica más importante es que la implementación del modo de explicación para las API en el entorno empresarial ha creado un elemento de investigación completamente nuevo y se ha introducido en la comunidad académica. En el área de las implicaciones prácticas, se debe enfatizar que el análisis de 16 casos de uso relevantes para la práctica brindó una descripción general completa de las implementaciones de IA para las PYMES en la industria de servicios. Los responsables de la toma de decisiones pueden adaptar los procesos descritos para beneficiarse directamente del potencial de optimización. La directriz antes mencionada puede ayudar a los responsables de la toma de decisiones a seleccionar los procesos adecuados y proporcionar orientación para el proceso de implementación. Además, fue posible mostrar de una manera científicamente sólida el potencial de optimización de la IA en los procesos comerciales y qué factores influyentes son de particular relevancia para la realización de este potencial de optimización.Administración y Dirección de Empresa

    Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018 : 10-12 December 2018, Torino

    On behalf of the Program Committee, a very warm welcome to the Fifth Italian Conference on Computational Linguistics (CLiC-­‐it 2018). This edition of the conference is held in Torino. The conference is locally organised by the University of Torino and hosted into its prestigious main lecture hall “Cavallerizza Reale”. The CLiC-­‐it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after five years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges

    An Investigation on Benefit-Cost Analysis of Greenhouse Structures in Antalya

    Significant population increase across the world, loss of cultivable land and increasing demand for food put pressure on agriculture. To meet the demand, greenhouses are built, which are, light structures with transparent cladding material in order to provide controlled microclimatic environment proper for plant production. Conceptually, greenhouses are similar with manufacturing buildings where a controlled environment for manufacturing and production have been provided and proper spaces for standardized production processes have been enabled. Parallel with the trends in the world, particularly in southern regions, greenhouse structures have been increasingly constructed and operated in Turkey. A significant number of greenhouses are located at Antalya. The satellite images demonstrated that for over last three decades, there has been a continuous invasion of greenhouses on all cultivable land. There are various researches and attempts for the improvement of greenhouse design and for increasing food production by decreasing required energy consumption. However, the majority of greenhouses in Turkey are very rudimentary structures where capital required for investment is low, but maintenance requirements are high when compared with new generation greenhouse structures. In this research paper, life-long capital requirements for construction and operation of greenhouse buildings in Antalya has been investigated by using benefit-cost analysis study

    Knowledge Capturing in Design Briefing Process for Requirement Elicitation and Validation

    Knowledge capturing and reusing are major processes of knowledge management that deal with the elicitation of valuable knowledge via some techniques and methods for use in actual and further studies, projects, services, or products. The construction industry, as well, adopts and uses some of these concepts to improve various construction processes and stages. From pre-design to building delivery knowledge management principles and briefing frameworks have been implemented across project stakeholders: client, design teams, construction teams, consultants, and facility management teams. At pre-design and design stages, understanding the client’s needs and users’ knowledge are crucial for identifying and articulating the expected requirements and objectives. Due to underperforming results and missed goals and objectives, many projects finish with highly dissatisfied clients and loss of contracts for some organizations. Knowledge capturing has beneficial effects via its principles and methods on requirement elicitation and validation at the briefing stage between user, client and designer. This paper presents the importance and usage of knowledge capturing and reusing in briefing process at pre-design and design stages especially the involvement of client and user, and explores the techniques and technologies that are usable in briefing process for requirement elicitation