Search CORE

5 research outputs found

Towards context-aware syntax parsing and tagging

Author: Bader-El-Den Mohamed
Cocea Mihaela
Mohasseb Alaa
Publication venue: Schloss Dagstuhl - Leibniz-Zentrum fuer Informatik
Publication date: 01/01/2019
Field of study

Information retrieval (IR) has become one of the most popular Natural Language Processing (NLP) applications. Part of speech (PoS) parsing and tagging plays an important role in IR systems. A broad range of PoS parsers and taggers tools have been proposed with the aim of helping to find a solution for the information retrieval problems, but most of these are tools based on generic NLP tags which do not capture domain-related information. In this research, we present a domain-specific parsing and tagging approach that uses not only generic PoS tags but also domain-specific PoS tags, grammatical rules, and domain knowledge. Experimental results show that our approach has a good level of accuracy when applying it to different domains

Portsmouth University Research Portal (Pure)

Dagstuhl Research Online Publication Server

Agglutinatiivisten kielten käsittely hakulausekkeissa

Author: Elomaa Ella
Publication venue
Publication date: 28/11/2022
Field of study

Agglutinatiiviset kielet kohtaavat erityisiä haasteita kieliteknologian alalla, johtuen sanojen morfologisesta monimutkaisuudesta ja usein myös kielellä saatavan aineiston vähyydestä. Näissä kielissä sanoilla voi olla käytännössä rajaton määrä eri muotoja, joita ohjelmien odotetaan pystyvän käsittämään ja ymmärtämään. Sen sijaan analyyttisissa kielissä, kuten englannissa, sanat harvoin, jos koskaan, taipuvat tai sisältävät affikseja eli sanaliitteitä. Tutkielmassa käsiteltävät perinteiset metodit ovat stemmaus, lemmaus, sanaluokkajäsennys, morfologinen koodaus, nimien tunnistaminen, kyselyn laajentaminen, parafraasitietokannat sekä hukkasanojen poisto. Hukkasanojen, eli hakulausekkeen kannalta merkityksettömät saneet, kuten konjunktiot, poisto toteutetaan ensimmäisenä, jotta turhia sanoja ei käsiteltäisi. Stemmauksessa sane, eli sanan konkreettisesta esiintymästä tekstissä (vrt. ”kukka” ja ”kukkien”, joista jälkimmäinen sane) poistetaan affiksit ja typistetään juureensa (”kukkien” tapauksessa ”kuk”). Läheistä sukua olevassa lemmauksessa palautetaan sanan perusmuoto. Sanaluokkajäsennyksessä merkitään saneen kieliopilliset koodit, jonka jälkeen voidaan tunnistaa erisnimiä hakulausekkeen joukosta. Kyselyn laajentamisessa hakulausekkeeseen joko sisällytetään hakusanojen synonyymeja tai useampia sijamuotoja; samankaltaisessa prosessissa parafraasitietokantoja käytetään kiertoilmausten etsimiseen. Kaikki nämä metodit perustuvat joko tilastollisiin menetelmiin tai asiantuntijoiden laatimiin kielikohtaisiin sääntöihin. Nämä perinteiset, melko yksinkertaisetkin metodit vaativat huomattavasti enemmän sääntöjä ja dataa agglutinatiivisten kielten käsittelyssä verrattuna analyyttisiin kieliin. Toimivimmillaan metodit ovat kielikohtaisissa ohjelmissa, tai laajemmin nimenomaan agglutinatiivisille kielille koskevissa ohjelmissa. Käytännössä hakukoneet käyttävät samanaikaisesti useampia metodeja mielekkäiden tulosten palauttamiseksi. Viimeisen kymmenen vuoden aikana neuroverkot ovat muodostuneet yhä tärkeämmäksi työvälineeksi kieliteknologian alalla, kun tilastollisten ja sääntöpohjaisten metodien rinnalla on alettu tarkastelemaan sanojen kontekstia. Kirjallisuuskatsauksessa tarkastelen, minkälaisilla metodeilla hakukoneet käsittelevät agglutinatiivisten kielten hakulausekkeita. Tutkielman lähteet on valittu viidestä eri tietokannasta perustuen otsikkoon, tiivistelmään, julkaisufoorumin luokitukseen ja lopulta yleiseen silmäilyyn

Trepo - Institutional Repository of Tampere University

Part-of-speech Tagging for Web Search Queries Using a Large-scale Web Corpus

Author: Keyaki Atsushi
Miyazaki Jun
宮崎純
欅惇志
Publication venue: 'Association for Computing Machinery (ACM)'
Publication date: 19/11/2016
Field of study

Institutional Repositories DataBase (IRDB)

Part-of-speech Tagging for Web Search Queries Using a Large-scale Web Corpus

Author: Keyaki Atsushi
Miyazaki Jun
Publication venue
Publication date
Field of study

Institutional Repositories DataBase (IRDB)

A customizable grammar-based framework for user-intent text classification

Author: Mohasseb Alaa
Publication venue
Publication date: 01/07/2018
Field of study

Portsmouth University Research Portal (Pure)