3 research outputs found

    Extração de contextos definitórios do Corpus COVID-19 com CQL

    Get PDF
    Termos representam os conceitos de um domínio e sua compreensão permite o acesso aos saberes contidos nos textos especializados. Entender o significado dos termos, portanto, é de grande importùncia não apenas para que pesquisadores possam socializar seus estudos e descobertas, mas também para que profissionais e estudantes de vårias åreas possam se valer da informação especializada em contextos de estudo e de trabalho. A evolução råpida do conhecimento muitas vezes não permite que a terminologia criada para designar conceitos seja dicionarizada com a necessåria rapidez. Tal fato pode representar um grande desafio para aqueles que necessitam ter acesso ao conhecimento especializado. Tendo em vista o contexto descrito, este estudo parte da revisão de abordagens utilizadas para a extração automåtica de traços definitórios (TDs) e contextos definitórios (CDs) e propÔe a utilização da ferramenta Corpus Query Language (CQL) para a extração de informaçÔes que auxiliem no entendimento da terminologia empregada em textos especializados. Em especial, verificamos a utilidade das sintaxes de busca construídas com a CQL para esse propósito, aplicando-as ao Corpus COVID-19. O percurso apresentado neste estudo poderå auxiliar não apenas especialistas da årea médica, mas também tradutores, lexicógrafos e professores a processarem, de forma mais råpida e precisa, o conhecimento contido em textos especializados.Terms represent the concepts of a domain and by comprehending them readers have access to the knowledge contained in specialized texts. Therefore, understanding the meaning of terms is of great importance not only for researchers to share the results of their studies, but also for professionals and students from various areas to apply specialized information in their learning and working contexts. The fast-evolving knowledge does not always permit that the terminology created to designate new concepts is quickly inserted in dictionaries, and this may represent a great challenge for those who need access to specialized knowledge. After presenting approaches used in the last twenty years for the automatic extraction of definition traits (DT) and definition contexts (DC), we propose the use of the Corpus Query Language (CQL) tool to retrieve information that helps in understanding the terminology used in specialized texts. In particular, we attested the usefulness of search syntaxes built with CQL for this purpose, applying them to the COVID-19 Corpus. The path presented in this study can help not only specialists in the medical field, but also translators, lexicographers and teachers to process, in a faster and more accurate way, the knowledge contained in specialized texts

    Definition context extraction from the COVID-19 corpus with CQL

    Get PDF
    Termos representam os conceitos de um domínio e sua compreensão permite o acesso aos saberes contidos nos textos especializados. Entender o significado dos termos, portanto, é de grande importùncia não apenas para que pesquisadores possam socializar seus estudos e descobertas, mas também para que profissionais e estudantes de vårias åreas possam se valer da informação especializada em contextos de estudo e de trabalho. A evolução råpida do conhecimento muitas vezes não permite que a terminologia criada para designar conceitos seja dicionarizada com a necessåria rapidez. Tal fato pode representar um grande desafio para aqueles que necessitam ter acesso ao conhecimento especializado. Tendo em vista o contexto descrito, este estudo parte da revisão de abordagens utilizadas para a extração automåtica de traços definitórios (TDs) e contextos definitórios (CDs) e propÔe a utilização da ferramenta Corpus Query Language(CQL) para a extraçãode informaçÔes que auxiliem no entendimento da terminologia empregadaem textos especializados. Em especial, verificamos a utilidade das sintaxes de busca construídas com a CQLpara esse propósito, aplicando-as ao Corpus COVID-19. O percurso apresentado neste estudo poderå auxiliar não apenas especialistas da årea médica, mas também tradutores, lexicógrafos e professores a processarem, de forma mais råpida e precisa, o conhecimento contido em textos especializados.Terms represent the concepts of a domain and by comprehending them readers have access to the knowledge contained in specialized texts. Therefore, understanding the meaning of terms is of great importance not only for researchers to share the results of their studies, but also for professionals and students from various areas to applyspecialized information in their learning and workingcontexts. The fast-evolving knowledge does not always permit that the terminology created to designate new concepts is quickly inserted in dictionaries, and this may represent a great challenge for those who need access to specialized knowledge. After presenting approaches used in the last twenty years for the automatic extraction of definition traits (DT) and definition contexts (DC), we propose the use of the Corpus Query Language (CQL) tool to retrieveinformation that helps in understanding the terminology used in specialized texts. In particular, we attested the usefulness of search syntaxes built with CQL for this purpose, applying them to the COVID-19 Corpus. The path presented in this study can help not only specialists in the medical field, but also translators, lexicographers and teachers to process, in a faster and more accurate way, the knowledge contained in specialized texts

    Corpus-based automatic detection of example sentences for dictionaries for Estonian learners

    Get PDF
    VĂ€itekirja elektrooniline versioon ei sisalda publikatsiooneNĂ€itelause tĂ€idab sĂ”nastikus kindlat eesmĂ€rki, aidates aru saada sĂ”na tĂ€hendusest ja illustreerides sĂ”na erinevaid kasutuskontekste. NĂ€itelausete pĂ”hiallikas on mahukas tekstikorpus, kust aga kĂ€sitsi on nĂ€itelauset leida vĂ€ga keeruline. Elektroonilise leksikograafia arenguga on Eestisse jĂ”udnud mitmed töövahendid, mis aitavad automaatselt tuvastada eri sĂ”nastike jaoks vajalikku infot, sealhulgas nĂ€itelauseid. VĂ€itekirjas uuritakse, missugused parameetrid iseloomustavad Eesti Keele Instituudis koostatud sĂ”nastike "Eesti keele sĂ”naraamat 2019", "Eesti keele pĂ”hisĂ”navara sĂ”nastik 2014", "Eesti keele naabersĂ”nad 2019" nĂ€itelauseid ning "Eesti keele A1−C1 Ă”pikute korpuse 2018" lauseid. Uurimuse eesmĂ€rk on vĂ€lja töötada meetod, mis vĂ”imaldab neid parameetreid arvestades korpusest automaatselt tuvastada eesti keele Ă”ppijatele sobivaid lauseid. Töö keskmes on reeglipĂ”hine lĂ€henemine, mida rakendatakse korpuspĂ€ringusĂŒsteemi Sketch Engine integreeritud tööriista GDEX ehk Good Dictionary Examples nĂ€itel. Parameetrite hÀÀlestamiseks on osaliselt kasutatud ka masinĂ”ppe elemente. SĂ”nastiku nĂ€itelausete ja Ă”pikulausete analĂŒĂŒs nĂ€itas, et hea eesti keele nĂ€itelause peab olema tĂ€islause ja vastama muuhulgas jĂ€rgmistele parameetritele: on 4–20 sĂ”net pikk; ei sisalda sĂ”nesid, mis on pikemad kui 20 tĂ€hemĂ€rki; ei alga teatud sĂ”naliikidega (nt sidesĂ”naga) ega tagasi viitavate sĂ”nade (nt sellepĂ€rast) vĂ”i sĂ”napaaridega (nt sellisel puhul); ei sisalda vulgaarseid ja halvustavaid sĂ”nu, madala sagedusega sĂ”nu jmt. Uurimuse tulemusena on loodud "Eesti keele Ă”ppekorpus 2018 (etSkELL)", mis sisaldab ainult vĂ€lja töötatud parameetritele vastavaid lauseid. Õppekorpus on omakorda aluseks eesti keele Ă”ppekeskkonnale Sketch Engine for Estonian Language Learning ehk etSkELL ja veebilausetele Eesti Keele Instituudi keeleportaalis SĂ”naveeb.The function of an example sentence in a dictionary is to help the reader understand the meaning of the headword and illustrate its contexts of use. Nowadays, the main source of example sentences is a large text corpus, where suitable sentences are hard to find. Luckily, e-lexicography has generated automatic tools to help detect various information for dictionaries, including example sentences. The dissertation examines certain parameters of the example sentences presented in the Dictionary of Estonian (2019), Basic Estonian Dictionary (2014), Estonian Collocations Dictionary (2019), and Estonian Coursebook Corpus (2018); all four were compiled at the Institute of the Estonian language. The aim of my study is to elaborate an automatic method using parameters which identify sentences suitable for learners of Estonian. To that end, a rule-based approach was applied to the example of Good Dictionary Examples (GDEX) integrated in the Sketch Engine corpus query tool. Machine learning elements were also adopted to fine-tune the parameters. According to the analysis of the example sentences used in the dictionaries and coursebook sentences, a good Estonian example sentence should be a full sentence meeting, inter alia, the following parameters: length 4–20 tokens; no tokens longer than 20 characters; never begins with certain parts of speech (e.g., conjunction) or an anaphoric word (e.g., sellepĂ€rast ‘this is why’) or word pair (e.g., sellisel puhul ‘in such a case’); and vulgar or disparaging words, rare words, etc., are excluded. The study resulted in the compilation of the Estonian Corpus for Learners 2018 (etSkELL), which contains no other sentences but those corresponding to the developed parameters. The corpus, in turn, serves as the basis for the corpus-based web tool Sketch Engine for Estonian Language Learning (etSkELL) and the web sentences in the language portal SĂ”naveeb of the Institute of the Estonian Language.https://www.ester.ee/record=b530293
    corecore