29 research outputs found

    Investigating Sub-Word Embedding Strategies for the Morphologically Rich and Free Phrase-Order Hungarian

    Get PDF
    For morphologically rich languages, word embeddings provide less consistent semantic representations due to higher variance in word forms. Moreover, these languages often allow for less constrained word order, which further increases variance. For the highly agglutinative Hungarian, semantic accuracy of word embeddings measured on word analogy tasks drops by 50-75% compared to English. We observed that embeddings learn morphosyntax quite well instead. Therefore, we explore and evaluate several sub-word unit based embedding strategies – character n-grams, lemmatization provided by an NLP-pipeline, and segments obtained in unsupervised learning (morfessor) – to boost semantic consistency in Hungarian word vectors. The effect of changing embedding dimension and context window size have also been considered. Morphological analysis based lemmatization was found to be the best strategy to improve embeddings’ semantic accuracy, whereas adding character n-grams was found consistently counterproductive in this regard

    Nagyenergiás fizikai kutatások és fejlesztések a CERN-i LHC gyorsító CMS és a Brookhaven-i RHIC gyorsító PHENIX detektornál = High energy physics research and development at the LHC CMS (LERN) and RHIC PHENIX (BHL) detectors

    Get PDF
    Az OTKA által támogatott kutatás két területre bontható. I. A BNL RHIC gyorsítójának PHENIX kísérletében a mérésekben és a kísérleti adatok analízisében való részvétel: Csoportunk a PHENIX kollaboráció tagjaként dolgozott, munkája beépült a PHENIX kísérlet közös eredményeibe. Néhány területen a csoport hozzájárulása különösen jelentős volt. Igy kiemelendő a jet-elnyomás jelenségének vizsgálata különböző energiájú nehézion ütközésekben illetve az elektreomágneses kaloriméterrel kapcsolatos szimulációs és kalibrációs tevékenység. II. Részvétel a CERN-i LHC CMS kísérletének építésében, ezen belül a barrel müon kamrák helyzetmeghatározó rendszerének fejlesztése és létrehozása: a pályázati időszak alatt megépítésre került a teljes rendszer, amely lehetővé teszi a CMS barrel müon spektrométerét alkotó 250 nagyméretű driftkamra helyzetének meghatározását szubmilliméteres pontossággal. | The research activity supported by the OTKA fund can be divided in two groups. I. Participation in the measurements and the physics analysis of the PHENIX experiment at the RHIC accelerator in BNL (USA): our group worked in close collaboration with other members of the experiment so its work was integrated in the common results of the whole collaboration. In some areas, however, the contribution was particularly significant. Two areas can be emphasized, the investigation of jet suppression in heavy ion collisions at different energies and the simulation and calibration of the electromagnetic calorimeter. II. Participation in the construction of the CMS experiment to be installed at the LHC accelerator (CERN, Switzerland), development and construction of the barrel muon position monitoring system: the full system has been completed during the period of the OTKA-support. It allowes us to determine the positions of 250 large-scale drift-chambers forming the barrel muon spectrometer with submillimeter accuracy

    Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

    Get PDF
    Cikkünkben egy valós idejű, kis erőforrás-igényű gépi beszéd-szöveg átalakító rendszert mutatunk be, melyet elsősorban televíziós közéleti társalgási beszéd feliratozására fejlesztettünk ki. Megoldásunkat összevetjük a tématerületen legelterjedtebben használt nyílt forráskódú keretrendszer, a Kaldi dekóderével is. Ezen felül különböző adatbázis-méretek mellett és újrabeszélés alkalmazásával is végzünk felismerési kísérleteket. Kísérleti rendszerünkkel, mely egy több mint 70 millió szót tartalmazó szövegkorpuszon és egy közel 500 órás beszédadatbázison lett tanítva sikerült az eddig publikált legalacsonyabb szóhibaarányt elérnünk magyar nyelvű, televíziós híradók és közéleti társalgási beszéd témakörén
    corecore