1,534 research outputs found

    Beyond Stemming and Lemmatization: Ultra-stemming to Improve Automatic Text Summarization

    Full text link
    In Automatic Text Summarization, preprocessing is an important phase to reduce the space of textual representation. Classically, stemming and lemmatization have been widely used for normalizing words. However, even using normalization on large texts, the curse of dimensionality can disturb the performance of summarizers. This paper describes a new method for normalization of words to further reduce the space of representation. We propose to reduce each word to its initial letters, as a form of Ultra-stemming. The results show that Ultra-stemming not only preserve the content of summaries produced by this representation, but often the performances of the systems can be dramatically improved. Summaries on trilingual corpora were evaluated automatically with Fresa. Results confirm an increase in the performance, regardless of summarizer system used.Comment: 22 pages, 12 figures, 9 table

    Ilmalaserkeilausaineistojen vertailu perustuen kattojen ominaisuuksiin

    Get PDF
    Laser scanning is nowadays one of the most important technology in geospatial data collection. The technique has developed together with the other technologies and sciences, and the systems can be used with many different platforms on land, in the ocean and in the air. Airborne laser scanning (ALS) started right after the invention of the laser in 1960’s and the usage grew in 1990’s, when the first commercial system was released. The development has augmented the ways of surveying and the systems have new features and more options to collect as accurate data as possible. Several wavelengths and higher frequencies able thousands or even millions of measurements per second. The multispectral systems enable the characterization of the targets from the spectral information which helps for example in the data classification. Single photon technique provides higher imaging capability with lower costs and is used in the extensive topographic measurements. The processing of the point clouds are more important when the densities grow and the amount of noise points is higher. The processing usually includes preprocessing, data management, classification, segmentation and modeling to enable the analyzing of the data. The goal of the thesis is to compare and analyze the datasets of five different airborne laser scanners. The conventional LiDAR datasets are collected from low altitude helicopter with the Riegl’s VUX-1HA and miniVUX-1UAV systems. The state-of-the-art sensors, Titan multispectral LiDAR (Teledyne Optech) and SPL100 single photon LiDAR (Leica), are used in the data collection from the aircraft. The data is collected from the urban area of Espoonlahti, Finland, and the comparison is based on the roof features. Other land cover classes are left out from the investigation. From the roof features are investigated the differences, accuracies and qualities between the datasets. The urban environment was selected because the lack of ALS research done for the built environment, especially in Finland. The thesis introduces the background of the airborne laser scanning, theories and literature review, materials and methods used in the project. The laser scanners used in the work produce dense point clouds, where the most dense is up to 80 pts/m2. Based on the results the accuracies vary mainly between 0 and 10 cm. The scanners with infrared wavelengths produce better than 10 cm accuracies for the outlines of the roofs, unlike the green wavelength scanners. The differences in the corner coordinates are between 1 and 8 cm with a few exceptions. SPL100 system has the best height accuracy of 4.2 cm and otherwise the accuracies vary between 5 and 10 cm. The largest deviation compared to the roof planes occurs in the miniVUX-1UAV data (over 5 cm). For the surface areas the infrared frequencies produce differences of 0 to 2 percent from the reference data, whereas the differences of the green wavelength are mainly 1 to 7 percent. For the inclinations no significant differences were observed.Laserkeilaus on nykyään yksi tärkeimmistä tekniikoista geospatiaalisen tiedon keräämisessä. Tekniikka on kehittynyt yhdessä muiden teknologioiden ja tieteiden kanssa, ja järjestelmiä voidaan käyttää monilla eri alustoilla maassa, meressä ja ilmassa. Ilmalaserkeilaus (ALS) alkoi heti laserin keksimisen jälkeen 1960-luvulla ja käyttö kasvoi 1990-luvulla ensimmäisen kaupallisen järjestelmän julkaisun jälkeen. Kehitys on lisännyt mittaustapoja ja järjestelmien ominaisuuksien parantuessa on enemmän vaihtoehtoja kerätä tarkkaa aineistoa. Useilla aallonpituuksilla ja korkeammilla taajuuksilla pystytään tekemään tuhansia tai jopa miljoonia mittauksia sekunnissa. Monispektriset järjestelmät mahdollista-vat kohteiden tunnistamisen spektritietojen (aallonpituuksien jakauman) mukaan, jota voidaan hyödyntää esimerkiksi aineistojen luokittelussa. Yksifotoni–tekniikka mahdollistaa suuremman mittauskyvyn pienemmällä kustannuksella (energiankulutus) ja sitä käytetään laajojen alueiden mittauksissa. Pistepilvien käsittely on entistä tärkeämpää kun tiheydet kasvavat ja virhepisteiden määrä on suurempi. Prosessointiin kuuluu yleensä esikäsittely, tiedonhallinta, luokittelu, segmentointi ja mallinnus, ennen aineiston analysointia. Tämän opinnäytetyön tavoitteena on vertailla ja analysoida viiden eri ilmalaserkeilaimen tuottamia aineistoja. Ns. tavanomaiset LiDAR–aineistot on kerätty matalalla lentävästä helikopterista Rieglin VUX-1HA ja miniVUX-1UAV –keilaimilla. Viimeisintä tekniikkaa edustavat Titan monispektri LiDAR (Teledyne Optech) ja SPL100 single photon LiDAR (Leica) -aineistot on kerätty lentokoneesta. Aineistot on kerätty Espoonlahden alueelta ja vertailu perustuu kattojen ominaisuuksiin. Muut maanpinnan kohteet jätetään tarkastelun ulkopuolelle. Pistepilvien perusteella tutkitaan aineistojen välisiä eroja, tarkkuuksia ja muita ominaisuuksia. Kaupunkiympäristö valittiin kohteeksi vähäisen rakennetun ympäristön ALS–tutkimuksen takia etenkin Suomessa. Opinnäytetyössä esitellään ilmalaserkeilauksen taustaa, teoriaa ja tehdään kirjallisuuskatsaus aiheeseen liittyen, sekä käydään läpi projektissa käytetyt aineistot ja menetelmät. Työssä käytetyt keilaimet tuottavat tiheitä pistepilviä, joista tihein on jopa 80 pistettä/m2. Tulosten perusteella tarkkuudet vaihtelevat pääosin 0 – 10 cm välillä. Kattolinjojen kohdalla infrapuna-aallonpituutta käyttävät keilaimet pääsevät alle 10 cm, toisin kuin vihreän aallonpituuden keilaimet. Kattojen kulmakoordinaattien erot ovat 1 – 8 cm välillä muutamaa poikkeusta lukuun ottamatta. Korkeuksissa paras tarkkuus on SPL100 laserkeilaimella 4.2 cm, ja muuten ollaan 5 – 10 cm tarkkuuksissa. Suurimmat hajaumat tasoon verrattaessa syntyy miniVUX-1UAV aineistoon (yli 5 cm). Pinta-aloissa infrapunataajuudet tuottavat 0 – 2 prosentin eroja vertailuaineistoon, kun taas vihreällä aallonpituudella erot ovat pääosin 1 – 7 prosenttia. Kaltevuuskulmissa ei havaittu merkittäviä eroja

    Feedback Driven Annotation and Refactoring of Parallel Programs

    Get PDF

    Data efficient deep learning models for text classification

    Get PDF
    Text classification is one of the most important techniques within natural language processing. Applications range from topic detection and intent identification to sentiment analysis. Usually text classification is formulated as a supervised learning problem, where a labeled training set is fed into a machine learning algorithm. In practice, training supervised machine learning algorithms such as those present in deep learning, require large training sets which involves a considerable amount of human labor to manually tag the data. This constitutes a bottleneck in applied supervised learning, and as a result, it is desired to have supervised learning models that require smaller amounts of tagged data. In this work, we will research and compare supervised learning models for text classification that are data efficient, that is, require small amounts of tagged data to achieve state of the art performance levels. In particular, we will study transfer learning techniques that reuse previous knowledge to train supervised learning models. For the purpose of comparison, we will focus on opinion polarity classification, a sub problem within sentiment analysis that assigns polarity to an opinion (positive or negative) depending on the mood of the opinion holder. Multiple deep learning models to learn representations of texts including BERT, InferSent, Universal Sentence Encoder and the Sentiment Neuron are compared in six datasets from different domains. Results show that transfer learning dramatically improves data efficiency, obtaining double digit improvements in F1 score just with under 100 supervised training examples
    corecore