57 research outputs found

    Data bases and data base systems related to NASA's aerospace program. A bibliography with indexes

    Get PDF
    This bibliography lists 1778 reports, articles, and other documents introduced into the NASA scientific and technical information system, 1975 through 1980

    Extração de conhecimento a partir de fontes semi-estruturadas

    Get PDF
    The increasing number of small, cheap devices, full of sensing capabilities lead to an untapped source of data that can be explored to improve and optimize multiple systems, from small-scale home automation to large-scale applications such as agriculture monitoring, traffic flow and industrial maintenance prediction. Yet, hand in hand with this growth, goes the increasing difficulty to collect, store and organize all these new data. The lack of standard context representation schemes is one of the main struggles in this area. Furthermore, conventional methods for extracting knowledge from data rely on standard representations or a priori relations. These a priori relations add latent information to the underlying model, in the form of context representation schemes, table relations, or even ontologies. Nonetheless, these relations are created and maintained by human users. While feasible for small-scale scenarios or specific areas, this becomes increasingly difficult to maintain when considering the potential dimension of IoT and M2M scenarios. This thesis addresses the problem of storing and organizing context information from IoT/M2M scenarios in a meaningful way, without imposing a representation scheme or requiring a priori relations. This work proposes a d-dimension organization model, which was optimized for IoT/M2M data. The model relies on machine learning features to identify similar context sources. These features are then used to learn relations between data sources automatically, providing the foundations for automatic knowledge extraction, where machine learning, or even conventional methods, can rely upon to extract knowledge on a potentially relevant dataset. During this work, two different machine learning techniques were tackled: semantic and stream similarity. Semantic similarity estimates the similarity between concepts (in textual form). This thesis proposes an unsupervised learning method for semantic features based on distributional profiles, without requiring any specific corpus. This allows the organizational model to organize data based on concept similarity instead of string matching. Another advantage is that the learning method does not require input from users, making it ideal for massive IoT/M2M scenarios. Stream similarity metrics estimate the similarity between two streams of data. Although these methods have been extensively researched for DNA sequencing, they commonly rely on variants of the longest common sub-sequence. This PhD proposes a generative model for stream characterization, specially optimized for IoT/M2M data. The model can be used to generate statistically significant data’s streams and estimate the similarity between streams. This is then used by the context organization model to identify context sources with similar stream patterns. The work proposed in this thesis was extensively discussed, developed and published in several international publications. The multiple contributions in projects and collaborations with fellow colleagues, where parts of the work developed were used successfully, support the claim that although the context organization model (and subsequent similarity features) were optimized for IoT/M2M data, they can potentially be extended to deal with any kind of context information in a wide array of applications.O número crescente de dispositivos pequenos e baratos, repletos de capacidades sensoriais, criou uma nova fonte de dados que pode ser explorada para melhorar e otimizar vários sistemas, desde domótica em ambientes residenciais até aplicações de larga escala como monitorização agrícola, gestão de tráfego e manutenção preditiva a nível industrial. No entanto, este crescimento encontra-se emparelhado com a crescente dificuldade em recolher, armazenar e organizar todos estes dados. A inexistência de um esquema de representação padrão é uma das principais dificuldades nesta área. Além disso, métodos de extração de conhecimento convencionais dependem de representações padrão ou relações definidas a priori. No entanto estas relações são definidas e mantidas por utilizadores humanos. Embora seja viável para cenários de pequena escala ou áreas especificas, este tipo de relações torna-se cada vez mais difícil de manter quando se consideram cenários com a dimensão associado a IoT e M2M. Esta tese de doutoramento endereça o problema de armazenar e organizar informação de contexto de cenários de IoT/M2M, sem impor um esquema de representação ou relações a priori. Este trabalho propõe um modelo de organização com d dimensões, especialmente otimizado para dados de IoT/M2M. O modelo depende de características de machine learning para identificar fontes de contexto similares. Estas caracteristicas são utilizadas para aprender relações entre as fontes de dados automaticamente, criando as fundações para a extração de conhecimento automática. Quer machine learning quer métodos convencionais podem depois utilizar estas relações automáticas para extrair conhecimento em datasets potencialmente relevantes. Durante este trabalho, duas técnicas foram desenvolvidas: similaridade semântica e similaridade entre séries temporais. Similaridade semântica estima a similaridade entre conceitos (em forma textual). Este trabalho propõe um método de aprendizagem não supervisionado para features semânticas baseadas em perfis distributivos, sem exigir nenhum corpus específico. Isto permite ao modelo de organização organizar dados baseado em conceitos e não em similaridade de caracteres. Numa outra vantagem importante para os cenários de IoT/M2M, o método de aprendizagem não necessita de dados de entrada adicionados por utilizadores. A similaridade entre séries temporais são métricas que permitem estimar a similaridade entre várias series temporais. Embora estes métodos tenham sido extensivamente desenvolvidos para sequenciação de ADN, normalmente dependem de variantes de métodos baseados na maior sub-sequencia comum. Esta tese de doutoramento propõe um modelo generativo para caracterizar séries temporais, especialmente desenhado para dados IoT/M2M. Este modelo pode ser usado para gerar séries temporais estatisticamente corretas e estimar a similaridade entre múltiplas séries temporais. Posteriormente o modelo de organização identifica fontes de contexto com padrões temporais semelhantes. O trabalho proposto foi extensivamente discutido, desenvolvido e publicado em diversas publicações internacionais. As múltiplas contribuições em projetos e colaborações com colegas, onde partes trabalho desenvolvido foram utilizadas com sucesso, permitem reivindicar que embora o modelo (e subsequentes técnicas) tenha sido otimizado para dados IoT/M2M, podendo ser estendido para lidar com outros tipos de informação de contexto noutras áreas.The present study was developed in the scope of the Smart Green Homes Project [POCI-01-0247-FEDER-007678], a co-promotion between Bosch Termotecnologia S.A. and the University of Aveiro. It is financed by Portugal 2020 under the Competitiveness and Internationalization Operational Program, and by the European Regional Development Fund.Programa Doutoral em Informátic

    Data Mining in Promoting Flight Safety

    Get PDF
    The incredible rapid development to huge volumes of air travel, mainly because of jet airliners that appeared to the sky in the 1950s, created the need for systematic research for aviation safety and collecting data about air traffic. The structured data can be analysed easily using queries from databases and running theseresults through graphic tools. However, in analysing narratives that often give more accurate information about the case, mining tools are needed. The analysis of textual data with computers has not been possible until data mining tools have been developed. Their use, at least among aviation, is still at a moderate level. The research aims at discovering lethal trends in the flight safety reports. The narratives of 1,200 flight safety reports from years 1994 – 1996 in Finnish were processed with three text mining tools. One of them was totally language independent, the other had a specific configuration for Finnish and the third originally created for English, but encouraging results had been achieved with Spanish and that is why a Finnish test was undertaken, too. The global rate of accidents is stabilising and the situation can now be regarded as satisfactory, but because of the growth in air traffic, the absolute number of fatal accidents per year might increase, if the flight safety will not be improved. The collection of data and reporting systems have reached their top level. The focal point in increasing the flight safety is analysis. The air traffic has generally been forecasted to grow 5 – 6 per cent annually over the next two decades. During this period, the global air travel will probably double also with relatively conservative expectations of economic growth. This development makes the airline management confront growing pressure due to increasing competition, signify cant rise in fuel prices and the need to reduce the incident rate due to expected growth in air traffic volumes. All this emphasises the urgent need for new tools and methods. All systems provided encouraging results, as well as proved challenges still to be won. Flight safety can be improved through the development and utilisation of sophisticated analysis tools and methods, like data mining, using its results supporting the decision process of the executives.Lentoliikenne kasvoi huomattavasti 1950-luvulla pääasiassa suihkumatkustajakoneiden myötä, mikä aiheutti poikkeamatietojen järjestelmällisen keräämisen ja tutkimuksen tarpeen. Määrämuotoinen tieto voidaan helposti analysoida tietokantakyselyillä esittäen tulokset käyttäen graafisia työkaluja, mutta tekstianalyysiin, jonka avulla tapauksista saadaan usein tarkempia tietoja, tarvitaan louhintatyökaluja. Tekstimuotoisen tiedon automaattinen analysointi ei ole ollut mahdollista ennen louhintatyökalujen kehittämistä. Silti niiden käyttö, ainakin ilmailun piirissä, on edelleen vähäistä. Tutkimuksen tarkoituksena oli havaita vaarallisia kehityskulkuja lentoturvallisuusraporteissa. 1 200 lentoturvallisuusraportin selostusosiot vuosilta 1994 –1996 käsiteltiin kolmella tekstinlouhintatyökalulla. Yksi näistä oli täysin kieliriippumaton, toisessa oli lisäosa, jossa oli mahdollisuus käsitellä suomen kieltä ja kolmas oli rakennettu alun perin ainoastaan englanninkielisen tekstin louhintaan, mutta espanjan kielellä saavutettujen rohkaisevien tulosten pohjalta päätettiin kokeilla myös suomenkielistä tekstiä. Lento-onnettomuuksien määrä liikenteeseen nähden on vakiintumassa maailmanlaajuisesti katsottuna ja turvallisuustaso voidaan katsoa tyydyttäväksi. Kuitenkin liikenteen kasvaessa myös onnettomuuksien määrä lisääntyy vuosittain, mikäli lentoturvallisuutta ei kyetä parantamaan. Turvallisuustiedon kerääminen ja raportointijärjestelmät ovat jo saavuttaneet huippunsa. Analysoinnin parantaminen on avain lentoturvallisuuden parantamiseen. Lentoliikenteen on ennustettu kasvavan 5 – 6 prosenttia vuodessa seuraavien kahden vuosikymmenen ajan. Samana aikana lentoliikenne saattaa kaksinkertaistua jopa vaatimattomimpien talouskasvuennusteiden mukaan. Tällainen kehitys asettaa lentoliikenteen päättäjille yhä kasvavia paineita kiristyvän kilpailun, polttoaineiden hinnannousun ja liikenteen kasvun aiheuttaman onnettomuuksien määrän vähentämiseksi. Tämä korostaa uusien menetelmien ja työkalujen kiireellistä tarvetta. Kaikilla louhintajärjestelmillä saatiin rohkaisevia tuloksia mutta ne nostivat samalla esille haasteita, jotka tulisi vielä voittaa. Lentoturvallisuutta voidaan vielä parantaa käyttämällä tässä esille tuotuja analyysimenetelmiä ja –työkaluja kuten tiedonlouhintaa ja soveltamalla näin saatuja tuloksia johdon päätöksenteon tukena.Siirretty Doriast

    De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

    Get PDF
    Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d'information. Plus précisément, nous proposons de nouveaux facteurs " centralité, fréquence conceptuelle" permettant à notre sens, de mieux caractériser la dimension sémantique du contenu des textes, allant au-delà des méthodes d'indexation classiques basées exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de différents types de relations telles que -est-une partie-de, liés à, synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposée pour calculer la valeur de nos facteurs est bâtie en trois étapes : (1) Extraction des concepts issus de WordNet1 associés aux termes du document puis désambigüisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces étapes construisent la vue sémantique des documents), (3) A l'intérieur de chaque cluster, chaque terme possède un degré de " centralité ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " fréquence conceptuelle " estimée par la somme des fréquences de ces mots. D'une part, nous menons une étude sur des méthodes potentielles basées sur les facteurs proposés pour extraire des vues sémantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiérarchies offrant une vue du contenu sémantique des documents. Ensuite, ces vues seront élaborées à partir de nos nouveaux facteurs, mais aussi de l'utilisation des fréquences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spécificité). Le poids relatif des vues partielles, la fréquence et la spécificité de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiérarchisés de mots (présents dans le texte ou sémantiquement associés à des mots du texte), et de refléter les concepts présents dans le contenu du texte. L'obtention d'une meilleure représentation du contenu sémantique des textes aidera à mieux retrouver les textes pertinents pour une requête donnée, et à donner une vue synthétisée du contenu des textes proposés à l'utilisateur en réponse à sa requête. D'autre part, nous proposons une technique de désambiguïsation du concept basée sur la centralité. En fait, le sens d'un terme est ambigu, il dépend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est précise dans la couverture des sens de termes, où un terme peut être attaché à plusieurs concepts. La méthode proposée consiste à trouver le meilleur concept WordNet permettant de représenter le sens du terme désigné par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralité. L'utilisation d'une méthode de désambiguïsation est une étape inévitable dans une indexation conceptuelle, elle permet de mieux représenter le contenu sémantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-à-vis d'une requête (tâche de RI ad-hoc). L'utilisation de nos facteurs sémantiques est intéressante dans la RI, où nous estimons un degré de relativité entre les termes d'une requête et ceux d'un document indépendamment de leur présence dans ce dernier. Dans ce cadre, nous avons proposé une nouvelle fonction de pondération basée sur la centralité, ainsi que nous avons intégré les nouveaux facteurs à des fonctions connues. Dans les différentes expérimentations menées, nous avons montré que l'intégration de nos facteurs sémantiques ramène une amélioration au niveau de précision dans un moteur de recherche d'information. Tâche prometteuse pour une recherche plus ciblée et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text
    • …
    corecore