Search CORE

29 research outputs found

Extremal Problems With Excluded Subgraphs IN The N-cube

Author: Katona Gyula
Tarján Tamás György
Publication venue
Publication date: 01/01/1983
Field of study

Repository of the Academy's Library

Televíziós feliratok írásjeleinek visszaállítása rekurrens neurális hálózatokkal

Author: Szaszák György
Tarján Balázs
Tündik Máté Ákos
Publication venue
Publication date: 01/01/2018
Field of study

University of Szeged

Investigating Sub-Word Embedding Strategies for the Morphologically Rich and Free Phrase-Order Hungarian

Author: Döbrössy Bálint
Makrai Márton
Szaszák György
Tarján Balázs
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2019
Field of study

For morphologically rich languages, word embeddings provide less consistent semantic representations due to higher variance in word forms. Moreover, these languages often allow for less constrained word order, which further increases variance. For the highly agglutinative Hungarian, semantic accuracy of word embeddings measured on word analogy tasks drops by 50-75% compared to English. We observed that embeddings learn morphosyntax quite well instead. Therefore, we explore and evaluate several sub-word unit based embedding strategies – character n-grams, lemmatization provided by an NLP-pipeline, and segments obtained in unsupervised learning (morfessor) – to boost semantic consistency in Hungarian word vectors. The effect of changing embedding dimension and context window size have also been considered. Morphological analysis based lemmatization was found to be the best strategy to improve embeddings’ semantic accuracy, whereas adding character n-grams was found consistently counterproductive in this regard

Crossref

Repository of the Academy's Library

Nagyenergiás fizikai kutatások és fejlesztések a CERN-i LHC gyorsító CMS és a Brookhaven-i RHIC gyorsító PHENIX detektornál = High energy physics research and development at the LHC CMS (LERN) and RHIC PHENIX (BHL) detectors

Author: Bencze György
Dávid Gábor
Fenyvesi András Csaba
Molnár József
Raics Péter
Szabó Zsolt
Szillási Zoltán
Tarján Péter
Veszprémi Viktor
Zilizi Gyula
Publication venue: OTKA
Publication date: 01/01/2008
Field of study

Az OTKA által támogatott kutatás két területre bontható. I. A BNL RHIC gyorsítójának PHENIX kísérletében a mérésekben és a kísérleti adatok analízisében való részvétel: Csoportunk a PHENIX kollaboráció tagjaként dolgozott, munkája beépült a PHENIX kísérlet közös eredményeibe. Néhány területen a csoport hozzájárulása különösen jelentős volt. Igy kiemelendő a jet-elnyomás jelenségének vizsgálata különböző energiájú nehézion ütközésekben illetve az elektreomágneses kaloriméterrel kapcsolatos szimulációs és kalibrációs tevékenység. II. Részvétel a CERN-i LHC CMS kísérletének építésében, ezen belül a barrel müon kamrák helyzetmeghatározó rendszerének fejlesztése és létrehozása: a pályázati időszak alatt megépítésre került a teljes rendszer, amely lehetővé teszi a CMS barrel müon spektrométerét alkotó 250 nagyméretű driftkamra helyzetének meghatározását szubmilliméteres pontossággal. | The research activity supported by the OTKA fund can be divided in two groups. I. Participation in the measurements and the physics analysis of the PHENIX experiment at the RHIC accelerator in BNL (USA): our group worked in close collaboration with other members of the experiment so its work was integrated in the common results of the whole collaboration. In some areas, however, the contribution was particularly significant. Two areas can be emphasized, the investigation of jet suppression in heavy ion collisions at different energies and the simulation and calibration of the electromagnetic calorimeter. II. Participation in the construction of the CMS experiment to be installed at the LHC accelerator (CERN, Switzerland), development and construction of the barrel muon position monitoring system: the full system has been completed during the period of the OTKA-support. It allowes us to determine the positions of 250 large-scale drift-chambers forming the barrel muon spectrometer with submillimeter accuracy

Repository of the Academy's Library

Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

Author: Bordás Csaba
Fegyó Tibor
Mihajlik Péter
Szaszák György
Tarján Balázs
Tobler Zoltán
Varga Ádám
Publication venue
Publication date: 01/01/2016
Field of study

Cikkünkben egy valós idejű, kis erőforrás-igényű gépi beszéd-szöveg átalakító rendszert mutatunk be, melyet elsősorban televíziós közéleti társalgási beszéd feliratozására fejlesztettünk ki. Megoldásunkat összevetjük a tématerületen legelterjedtebben használt nyílt forráskódú keretrendszer, a Kaldi dekóderével is. Ezen felül különböző adatbázis-méretek mellett és újrabeszélés alkalmazásával is végzünk felismerési kísérleteket. Kísérleti rendszerünkkel, mely egy több mint 70 millió szót tartalmazó szövegkorpuszon és egy közel 500 órás beszédadatbázison lett tanítva sikerült az eddig publikált legalacsonyabb szóhibaarányt elérnünk magyar nyelvű, televíziós híradók és közéleti társalgási beszéd témakörén

University of Szeged