44 research outputs found

    Advances in Image Processing, Analysis and Recognition Technology

    Get PDF
    For many decades, researchers have been trying to make computers’ analysis of images as effective as the system of human vision is. For this purpose, many algorithms and systems have previously been created. The whole process covers various stages, including image processing, representation and recognition. The results of this work can be applied to many computer-assisted areas of everyday life. They improve particular activities and provide handy tools, which are sometimes only for entertainment, but quite often, they significantly increase our safety. In fact, the practical implementation of image processing algorithms is particularly wide. Moreover, the rapid growth of computational complexity and computer efficiency has allowed for the development of more sophisticated and effective algorithms and tools. Although significant progress has been made so far, many issues still remain, resulting in the need for the development of novel approaches

    Natural Language Processing: Emerging Neural Approaches and Applications

    Get PDF
    This Special Issue highlights the most recent research being carried out in the NLP field to discuss relative open issues, with a particular focus on both emerging approaches for language learning, understanding, production, and grounding interactively or autonomously from data in cognitive and neural systems, as well as on their potential or real applications in different domains

    Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment

    Get PDF
    En esta Tesis se ha investigado la aplicación de técnicas de modelado de subespacios de mezclas de Gaussianas en dos problemas relacionados con las tecnologías del habla, como son la identificación automática de idioma (LID, por sus siglas en inglés) y la evaluación automática de inteligibilidad en el habla de personas con disartria. Una de las técnicas más importantes estudiadas es el análisis factorial conjunto (JFA, por sus siglas en inglés). JFA es, en esencia, un modelo de mezclas de Gaussianas en el que la media de cada componente se expresa como una suma de factores de dimensión reducida, y donde cada factor representa una contribución diferente a la señal de audio. Esta factorización nos permite compensar nuestros modelos frente a contribuciones indeseadas presentes en la señal, como la información de canal. JFA se ha investigado como clasficador y como extractor de parámetros. En esta última aproximación se modela un solo factor que representa todas las contribuciones presentes en la señal. Los puntos en este subespacio se denominan i-Vectors. Así, un i-Vector es un vector de baja dimensión que representa una grabación de audio. Los i-Vectors han resultado ser muy útiles como vector de características para representar señales en diferentes problemas relacionados con el aprendizaje de máquinas. En relación al problema de LID, se han investigado dos sistemas diferentes de acuerdo al tipo de información extraída de la señal. En el primero, la señal se parametriza en vectores acústicos con información espectral a corto plazo. En este caso, observamos mejoras de hasta un 50% con el sistema basado en i-Vectors respecto al sistema que utilizaba JFA como clasificador. Se comprobó que el subespacio de canal del modelo JFA también contenía información del idioma, mientras que con los i-Vectors no se descarta ningún tipo de información, y además, son útiles para mitigar diferencias entre los datos de entrenamiento y de evaluación. En la fase de clasificación, los i-Vectors de cada idioma se modelaron con una distribución Gaussiana en la que la matriz de covarianza era común para todos. Este método es simple y rápido, y no requiere de ningún post-procesado de los i-Vectors. En el segundo sistema, se introdujo el uso de información prosódica y formántica en un sistema de LID basado en i-Vectors. La precisión de éste estaba por debajo de la del sistema acústico. Sin embargo, los dos sistemas son complementarios, y se obtuvo hasta un 20% de mejora con la fusión de los dos respecto al sistema acústico solo. Tras los buenos resultados obtenidos para LID, y dado que, teóricamente, los i-Vectors capturan toda la información presente en la señal, decidimos usarlos para la evaluar de manera automática la inteligibilidad en el habla de personas con disartria. Los logopedas están muy interesados en esta tecnología porque permitiría evaluar a sus pacientes de una manera objetiva y consistente. En este caso, los i-Vectors se obtuvieron a partir de información espectral a corto plazo de la señal, y la inteligibilidad se calculó a partir de los i-Vectors obtenidos para un conjunto de palabras dichas por el locutor evaluado. Comprobamos que los resultados eran mucho mejores si en el entrenamiento del sistema se incorporaban datos de la persona que iba a ser evaluada. No obstante, esta limitación podría aliviarse utilizando una mayor cantidad de datos para entrenar el sistema.In this Thesis, we investigated how to effciently apply subspace Gaussian mixture modeling techniques onto two speech technology problems, namely automatic spoken language identification (LID) and automatic intelligibility assessment of dysarthric speech. One of the most important of such techniques in this Thesis was joint factor analysis (JFA). JFA is essentially a Gaussian mixture model where the mean of the components is expressed as a sum of low-dimension factors that represent different contributions to the speech signal. This factorization makes it possible to compensate for undesired sources of variability, like the channel. JFA was investigated as final classiffer and as feature extractor. In the latter approach, a single subspace including all sources of variability is trained, and points in this subspace are known as i-Vectors. Thus, one i-Vector is defined as a low-dimension representation of a single utterance, and they are a very powerful feature for different machine learning problems. We have investigated two different LID systems according to the type of features extracted from speech. First, we extracted acoustic features representing short-time spectral information. In this case, we observed relative improvements with i-Vectors with respect to JFA of up to 50%. We realized that the channel subspace in a JFA model also contains language information whereas i-Vectors do not discard any language information, and moreover, they help to reduce mismatches between training and testing data. For classification, we modeled the i-Vectors of each language with a Gaussian distribution with covariance matrix shared among languages. This method is simple and fast, and it worked well without any post-processing. Second, we introduced the use of prosodic and formant information with the i-Vectors system. The performance was below the acoustic system but both were found to be complementary and we obtained up to a 20% relative improvement with the fusion with respect to the acoustic system alone. Given the success in LID and the fact that i-Vectors capture all the information that is present in the data, we decided to use i-Vectors for other tasks, specifically, the assessment of speech intelligibility in speakers with different types of dysarthria. Speech therapists are very interested in this technology because it would allow them to objectively and consistently rate the intelligibility of their patients. In this case, the input features were extracted from short-term spectral information, and the intelligibility was assessed from the i-Vectors calculated from a set of words uttered by the tested speaker. We found that the performance was clearly much better if we had available data for training of the person that would use the application. We think that this limitation could be relaxed if we had larger databases for training. However, the recording process is not easy for people with disabilities, and it is difficult to obtain large datasets of dysarthric speakers open to the research community. Finally, the same system architecture for intelligibility assessment based on i-Vectors was used for predicting the accuracy that an automatic speech recognizer (ASR) system would obtain with dysarthric speakers. The only difference between both was the ground truth label set used for training. Predicting the performance response of an ASR system would increase the confidence of speech therapists in these systems and would diminish health related costs. The results were not as satisfactory as in the previous case, probably because an ASR is a complex system whose accuracy can be very difficult to be predicted only with acoustic information. Nonetheless, we think that we opened a door to an interesting research direction for the two problems

    Word Knowledge and Word Usage

    Get PDF
    Word storage and processing define a multi-factorial domain of scientific inquiry whose thorough investigation goes well beyond the boundaries of traditional disciplinary taxonomies, to require synergic integration of a wide range of methods, techniques and empirical and experimental findings. The present book intends to approach a few central issues concerning the organization, structure and functioning of the Mental Lexicon, by asking domain experts to look at common, central topics from complementary standpoints, and discuss the advantages of developing converging perspectives. The book will explore the connections between computational and algorithmic models of the mental lexicon, word frequency distributions and information theoretical measures of word families, statistical correlations across psycho-linguistic and cognitive evidence, principles of machine learning and integrative brain models of word storage and processing. Main goal of the book will be to map out the landscape of future research in this area, to foster the development of interdisciplinary curricula and help single-domain specialists understand and address issues and questions as they are raised in other disciplines

    The Role of Math5 (Atoh7) in Retinal and Optic Nerve Development and Human Disease.

    Full text link
    Vertebrate retinal histogenesis is controlled by both intrinsic transcriptional programs and the microenvironment. The basic helix-loop-helix (bHLH) factor Math5 (Atoh7) is required for differentiation of retinal ganglion cells (RGC), which form the optic nerve. Math5 knockout mice lack RGCs, but only 10% of Math5-expressing progenitors adopt the RGC fate, and only 55% of RGCs are lineal descendents of Math5+ cells. To define the role of Math5 in RGC development, I characterized the transcriptional anatomy of mouse Math5, and showed that it is an unspliced, single-exon gene, contrary to a recent high-profile report. I then tested the contribution of Math5-expressing cells to the earliest born cohort of mouse retinal neurons, which consist primarily of RGCs (~80%). Unexpectedly, I found that only 20-30% of this cohort expresses Math5, yet most early RGCs depend on Math5 function, suggesting a non-autonomous role for Math5-expressing cells in RGC specification. Next, I evaluated the onset of Math5 expression, and that of RGC markers Brn3b and Isl1, with respect to the terminal cell cycle. Surprisingly, these markers were expressed by neurogenic cells prior to terminal mitosis during early development (<E14), but restricted to post-mitotic cells during later stages. By retroviral clone analysis, I confirmed that early neurogenic cells often divide symmetrically, leading to paired RGC daughters. Retinal fate determination is thus not strictly synchronized to cell cycle exit. I then evaluated whether Math5 can bias terminally mitotic progenitors toward the RGC fate. I broadly over-expressed Math5 using BAC and conven-tional transgenes controlled by Crx regulatory DNA. Unexpectedly, I found that ectopic Math5 did not alter cell fate in a wild-type environment, but partially rescued RGC development in Math5 mutant retinas. Early (pioneering) RGCs are deficient in these mice, and rescue was incomplete. Transgene-derived late-born RGCs exhibited pathfinding defects and were prone to apoptosis. Finally, I evaluated the role of ATOH7 (MATH5) in human optic nerve aplasia and hypoplasia, and familial persistent hyperplastic primary vitreous (PHPV) disease. I identified a basic domain mutation (p.N46>H) in PHPV, and established causation, using biochemical and functional assays. Together, these studies provide important insights into the function of Math5 and RGC development.PHDHuman GeneticsUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/107270/1/lprasov_1.pd

    Strategic Latency Unleashed: The Role of Technology in a Revisionist Global Order and the Implications for Special Operations Forces

    Get PDF
    The article of record may be found at https://cgsr.llnl.govThis work was performed under the auspices of the U.S. Department of Energy by Lawrence Livermore National Laboratory in part under Contract W-7405-Eng-48 and in part under Contract DE-AC52-07NA27344. The views and opinions of the author expressed herein do not necessarily state or reflect those of the United States government or Lawrence Livermore National Security, LLC. ISBN-978-1-952565-07-6 LCCN-2021901137 LLNL-BOOK-818513 TID-59693This work was performed under the auspices of the U.S. Department of Energy by Lawrence Livermore National Laboratory in part under Contract W-7405-Eng-48 and in part under Contract DE-AC52-07NA27344. The views and opinions of the author expressed herein do not necessarily state or reflect those of the United States government or Lawrence Livermore National Security, LLC. ISBN-978-1-952565-07-6 LCCN-2021901137 LLNL-BOOK-818513 TID-5969

    Remote Sensing for Urban Sprawl Detection on Istanbul : Quantification and Detection of Key-Actions with Integrated GIS

    Get PDF
    Die vorliegende Arbeit basiert auf dem Projekt MOLAND für Istanbul, welches in den Jahren 2001 und 2002 für den Joint Research Centre der Europäischen Kommission in Ispra/Italien durchgeführt wurde. Zunächst wird in einem Hintergrund-Kapitel eine Einführung zum Projekt MOLAND (Monitoring Land-Use Dynamics) und seinen Zielen selbst gegeben, danach werden die weiteren Ziele der vorliegenden Arbeit definiert. Um die rasch wachsende Metropole Istanbul im Kontext zu begreifen, werden die wichtigsten geographischen und sozioökonomische Gegebenheiten zunächst für die Türkei dann auch speziell für die Marmara- Region und Istanbul skizziert. Neben der naturräumlichen Ausstattung werden auch Aspekte wie Migration, Wirtschaft, Industrialisierung, Tourismus und anderes angesprochen um Istanbul mit seinem Hinterland in Wechselwirkung zu verstehen. Ein kurzer geschichtlicher Abriss und eine Aufstellung der aktuellen Probleme schließt dieses Kapitel ab. Ein methodisches Kapitel ist der eigentlichen Analyse vorangestellt. Hier wird zunächst auf die Problematik der Landnutzungserfassung eingegangen, da jede Form einer solchen Klassifizierung ein Einpressen individueller Strukturen in ein festes Schema darstellt. Dies ist aber hinsichtlich von Vergleichen eine Notwendigkeit. Es werden dahingehend auch die CORINE und MOLAND Legenden mit Beispielen erläutert und die in dieser Studie genutzten häufigen Klassen dargestellt. Danach wird auf die Nutzungsmöglichkeiten von Geographischen Informationssystemen eingegangen, welche für solche räumlichen Analysen von großer Bedeutung sind. Datenmodelle, Formate und die Kombination unterschiedlichster Quellen in einem „Daten-Warenhaus“ werden vorgestellt. Schließlich wird auf die Datenbeschaffung und die genutzten Quellen eingegangen. Basierend auf deren Verfügbarkeit ergaben sich schließlich so die untersuchten Jahre 1945, 1968, 1988 und 2000. Neben topographischen Karten, die als Georeferenz dienten, wurden für die 1940er Jahre und 1968 Luftbilder beschafft, für 1987/88 KFA und KVR Satellitenphotos gekauft und für das Referenzjahr 2000 IKONOS und IRS Satellitenszenen vom JRC zur Verfügung gestellt. Auf weiterführende Daten und deren Nutzungsmöglichkeiten, z.B. Geologie, Geländemodelle, Thematische Karten, Statistiken usw. wird ebenfalls eingegangen. Detailliert werden die methodischen Schritte der Satellitenbild-Georeferenzierung, der photogrammetrischen Auswertung und Orthorektifizierung der Luftbilder und auch die weiteren vorbereitenden Arbeitsschritte vorgestellt. Die Methodik zur eigentliche Auswertung bzw. Interpretation der Daten erfolgt ebenfalls in diesem Kapitel, da Vektorisierung und Zuweisung der Nutzung in einem Prozess erfolgten. Neben Versuchen der automatischen Klassifizierung mittels Clusteranalyse wird auch diese manuelle Methode kritisch hinterfragt und Probleme aber auch häufig genutzte Klassen vorgestellt. Ein weiterer wichtiger methodischer Schritt ist die Rückdatierung (down-dating) der Referenz-Daten zur Erzeugung der historischen Landnutzungsdaten. Kurz wird auch auf die gemischte Datenverarbeitung eingegangen, welche in der späteren Analyse eine Rolle spielt. Da bei der manuellen Bearbeitung der Daten auch Dritte im Rahmen des Projektes beteiligt waren, wird auf eine Definition der notwendigen Arbeitsschritte besonderer Wert gelegt. Im drittel Kapitel wird zunächst das genaue Untersuchungsgebiet definiert und eine Betrachtung der geometrischen und thematischen Genauigkeit durchgeführt. Dann werden für alle Jahre die extrahierten Landnutzungsklassen in ihrer Lage, Größe und Nutzung präsentiert und auch das ebenfalls erfasste Verkehrsnetz betrachtet. Dies erfolgt sowohl in Form von Karten als auch kumulativer Statistiken für die gewählten Untersuchungsjahre. Im vierten Kapitel werden dann die Daten zunächst im Überblick analysiert und Entwicklungen anhand von Flächenzuwächsen oder Verlusten bilanziert. Anhand von Beispielen mit Luft- und Satellitenbildern und der entsprechenden Auswertungen wird der Landschaftswandel vom ländlichen Raum zur Grosstadt verdeutlicht. Bereits hier wird der enorme Zuwachs städtischer Strukturen vorwiegend zu Lasten der Landwirtschaftsflächen deutlich. Auch die Küstenlinie und Lagunen werden überplant und besondere infrastrukturelle Einrichtungen wie der Flughafen tragen zur Urbanisierung bei. 11 Räumliche Statistiken und kombinierte Analysen vertiefen in Kapitel 5 die vorangegangenen Feststellungen indem direkt die umgewidmeten Flächen extrahiert werden und auch Strukturänderungen innerhalb von Gruppen, z.B. der Wohngebiete festgestellt werden. Detaillierter werden nun einzelne Klassen analysiert und so z.B. der Trend zu dichterer Wohnbebauung herausgestellt. In Verbindung mit demographischen Daten werden unter Zuhilfenahme von Modellansätzen Analysen der Wohndichte durchgeführt, die den Trend zu „weniger Personen auf gleicher Wohnfläche“ herausstellen. Ein Vergleich der Entwicklung der Asiatischen und der Europäischen Seite Istanbuls stellt die Schlüsselfunktion der Bosporusbrücken heraus. Diese infrastrukturelle Maßnahme initiierte ein urbanes Wachstum enormer Dimension auf der Asiatischen Seite Istanbuls, vor allem bei der Wohnbebauung. Ferner werden in diesem Kapitel auch Entwicklungstrends sowohl statistisch als auch kartographisch dargestellt und Achsen der möglichen künftigen Ausdehnung Istanbuls aufgezeigt. In Kapitel 6 wird Istanbul zunächst mit den weltgrößten Agglomerationen verglichen und die Entwicklung von 1950 bis in die nahe Zukunft (2015) prognostiziert. Mit einer heute moderaten jährlichen Wachstumsrate von 2% steht Istanbul deutlich hinter anderen Agglomerationen in Südamerika, Indien und China zurück, jedoch auch noch deutlich über den niedrigen oder sogar negativen Raten westeuropäischer Großstädte. In einem zweiten Schritt wird Istanbul auch mit den bereits untersuchten 24 MOLAND-Städten verglichen und deren zeit-räumliche Entwicklung gegenübergestellt. Dabei ist nicht in allen Aspekten die Entwicklung Istanbuls als dramatisch anzusehen wenngleich der Verstädterungsprozess den der anderen Agglomerationen weit übertrifft. Istanbul wird schließlich auch mit benachbarten Metropolen und anderen türkischen Städten in Vergleich gesetzt. Dabei wird die Ähnlichkeit der westmediterranen, nicht europäischen Ballungszentren festgestellt. Bezogen auf die Türkei ist Istanbul nicht mehr die wachstumsstärkste Stadt. Andere Städte profitieren weiter von der Industrialisierung, dem Tourismus und der Migration aus dem Hinterland, besonders Ost- und Nordanatolien, welche nach wie vor anhält. Neben einer zusammenfassenden Interpretation wird auf Nutzungsmöglichkeiten der Daten eingegangen. Vor allem auf wissenschaftlicher Seite bestehen mögliche Kooperationen auch mit Interesse weiterführender finanziell unterstützter Projekte. Endnutzer, z.B. kommunale Organisationen. Ämter, Behörden sowie Dienstleistungsbetriebe wie die Wasserversorgung sind grundsätzlich an den Daten interessiert, an eine Datenintegration und Entwicklung von Strategien hierfür müsste aber noch gearbeitet werden. Als Beispiel für Nutzung im Krisenmanagement wird basierend auf den gewonnenen Daten eine Tsunami- Gefährdungskarte entwickelt, welche Geländemodell und aktuelle Küstenlinie nutzt um planungsrelevante Hinweise zu geben. Abschließend werden die methodischen Schritte kritisch hinsichtlich Kosten-Nutzen- Zeitaufwand diskutiert und offene Probleme angesprochen. Möglichkeiten aber auch Limits zur weiteren Nutzung der Daten werden offen diskutiert und auch zu gering berücksichtigte Methoden, welche es in Zukunft stärker zu integrieren gilt, erwähnt
    corecore