Neste artigo apresenta-se um sistema de part-of-speech tagging, independente do domínio, para etiquetação gramatical de texto para o Português e Inglês.
O etiquetador usa informação morfo-sintáctica que vem de um dicionário local que completa a sua informação recorrendo a dicionários disponíveis na rede como o da Priberam e do LookWayUP.
Este etiquetador é baseado numa função heurística que é usada na optimização dos seus parâmetros e posterior  etiquetação de texto.
Na optimização dos parâmetros da função heurística são usadas algumas das técnicas de pesquisa
local para reduzir o espaço de pesquisa.
Na avaliação do sistema usaram-se dois textos do corpora Reuters: testa (na fase treino) e testb (na fase de teste)

Ferreira, Lígia

Laranjinho, João

Rodrigues, Irene

Repositório Científico da Universidade de Évora

POS-Tagging usando Pesquisa LocalJoa˜o Laranjinho and Irene Rodrigues and L´ıgia FerreiraUniversidade de E´voraAbstract. Neste artigo apresenta-se um sistema de part-of-speech tagging, independentedo domı´nio, para etiquetac¸a˜o gramatical de texto para o Portugueˆs e Ingleˆs.O etiquetador usa informac¸a˜o morfo-sinta´tica que vem de um diciona´rio local que completaa sua informac¸a˜o recorrendo a diciona´rios dispon´ıveis na rede como o da Priberam e doLookWayUP.Este etiquetador e´ baseado numa func¸a˜o heur´ıstica que e´ usada na optimizac¸a˜o dos seusparaˆmetros e posterior etiquetac¸a˜o de texto.Na optimizac¸a˜o dos paraˆmetros da func¸a˜o heur´ıstica sa˜o usadas algumas das te´cnicas pesquisalocal para reduzir o espac¸o de pesquisa.Na avaliac¸a˜o do sistema usaram-se dois textos do corpora Reuters: testa (na fase treino) etestb (na fase de teste).1 Introduc¸a˜oOs sistemas de part-of-speech tagging classificam gramaticalmente a´tomos de um texto.As formas das palavras sa˜o frequentemente amb´ıguas no part-of-speech tagging. Numa ex-pressa˜o, essas ambiguidades normalmente sa˜o resolvidas pelo contexto das palavras.Os sistema de part-of-speech tagging dividem-se em dois grupos: baseados em regras e es-toca´sticos.Para o ingleˆs, alguns dos sistemas actuais conseguem um valor que ronda os 96-97% de precisa˜o.Apresentamos um sistema automa´tico independente do domı´nio para etiquetac¸a˜o gramaticalde texto. Na etiquetac¸a˜o e´ usada informac¸a˜o morfo-sinta´ctica de diciona´rios que se encontram naWEB. Para reduzir o espac¸o de pesquisa sa˜o usadas algumas te´cnicas de pesquisa local.O desempenho de um sistema de part-of-speech tagging pode ser medido com diversa˜o me´tricasque representam o desempenho em valores nume´ricos.As treˆs me´tricas que normalmente sa˜o utilizadas para avaliar o desempenho sa˜o as seguintes:Abrangeˆncia (Recall), Precisa˜o (Precision) e Medida-F (F-Measure).– A Abrangeˆncia mede a relac¸a˜o entre o nu´mero de resultados correctos e o nu´mero de resultadosexistentes. A fo´rmula da Abrangeˆncia e´ a seguinte:Abrangeˆncia =Resultados Correctos ∩ Resultados ExistentesResultados Existentes– A Precisa˜o mede a relac¸a˜o entre o nu´mero de resultados correctos e o nu´mero de resultadosobtidos. A fo´rmula da Precisa˜o e´ a seguinte:Precisa˜o =Resultados Correctos ∩ Resultados ObtidosResultados Obtidos– A Medida-F e´ uma me´trica harmo´nica de Precisa˜o (P) e Abrangeˆncia (A). A fo´rmula daMedida-F e´ a seguinte:Medida-F = 2*P∗AP+A2 Arquitectura do EtiquetadorO etiquetador conte´m duas etapas: optimizac¸a˜o e etiquetac¸a˜o. Na figura 1 sa˜o apresentados osmo´dulos de optimizac¸a˜o e na figura 2 sa˜o apresentados os mo´dulos de etiquetac¸a˜o.Fig. 1. Arquitectura do Optimizador2.1 Optimizac¸a˜oA etapa de optimizac¸a˜o conte´m os seguintes mo´dulos: pre´-processamento, ana´lise lexical, pesquisalocal e sa´ıda.No pre´-processamento separa-se o texto em frases e as frases em a´tomos. As frases sa˜o con-stitu´ıdas por a´tomos e os a´tomos por sequeˆncias de caracteres. Ainda no pre´-processamento osa´tomos sa˜o agrupados em tripos para serem usados na func¸a˜o heur´ıstica.Na ana´lise lexical consulta-se em diciona´rios on-line a informac¸a˜o morfo-sinta´tica das palavrasque na˜o se encontram no diciona´rio local, guardando-se essa informac¸a˜o no diciona´rio local.Na pesquisa local geram-se conjuntos de paraˆmetros iniciais, que posteriormente sera˜o avalia-dos. Quando um conjunto de paraˆmetros conte´m outros conjuntos vizinhos com valor de heur´ısticasuperior, expandem-se os vizinhos e em seguida avaliam-se. A avaliac¸a˜o termina quando na˜o sa˜oencontrados mais vizinhos com valor de heur´ıstica superior ou um crite´rio de paragem ter sidoalcanc¸ado.Finalmente na sa´ıda transcreve-se para um ficheiro o conjunto de paraˆmetros que obteve ovalor mais alto de heur´ıstica.2.2 Etiquetac¸a˜oA etapa de etiquetac¸a˜o conte´m os seguintes mo´dulos: pre´-processamento, ana´lise lexical, avaliac¸a˜oe sa´ıda.No pre´-processamento separa-se o texto em frases e as frases em a´tomos. As frases sa˜o con-stitu´ıdas por a´tomos e os a´tomos por sequeˆncias de caracteres. Ainda no pre´-processamento osa´tomos sa˜o agrupados em tripos para serem usados na func¸a˜o heur´ıstica.Na ana´lise lexical consulta-se em diciona´rios on-line a informac¸a˜o morfo-sinta´tica das palavrasque na˜o se encontram no diciona´rio local, guardando-se essa informac¸a˜o no diciona´rio local.Na avaliac¸a˜o sa˜o atribu´ıdas classes gramaticais a cada a´tomo atrave´s de uma func¸a˜o que usaos paraˆmetros apurados na fase de optimizac¸a˜o.Finalmente na sa´ıda escreve-se num ficheiro para cada a´tomo a categoria correspondente.3 CorpusNos testes com o etiquetador usamos os seguintes 2 ficheiro do corpus da Reuters: testa (na fasede treino) e testb (na fase de teste).Fig. 2. Arquitectura do EtiquetadorPara conhecermos um pouco melhor o corpus fizemos testes com: a´tomos amb´ıguos, a´tomossem contradito´rios e todos os a´tomos. A distribuic¸a˜o dos a´tomos encontra-se na tabela 1testa testbTodos 51.360 46.435Amb´ıguos 24.144 –Sem Contradito´rio 45.184 –Table 1. Distribuic¸a˜o dos a´tomos no CorpusOs a´tomos amb´ıguos sa˜o a´tomos que se encontram no diciona´rio com entrada em mais que umaclasse gramatical. Os a´tomos contradito´rios sa˜o a´tomos com iguais caracter´ısticas no diciona´rioque ocorrem no corpus com diferentes classificac¸o˜es.4 Func¸a˜o de Avaliac¸a˜oNa func¸a˜o de avaliac¸a˜o estuda-se o impacto das classes gramaticais na etiquetac¸a˜o gramatical detexto. O estudo inclui informac¸a˜o sobre: a´tomo anterior, a´tomo em ana´lise e a´tomo seguinte.No sistema de etiquetac¸a˜o de classes gramaticais sa˜o usadas as seguintes 20 classes gramaticais:ADJ, ADV, CONJ, DET, EX, FW, MOD, N, NP, NUM, PRO, P, TO, UH, V, VD, VG, VN, WHe SYM.A func¸a˜o heur´ıstica usada e´ a seguinte:F (A−1, A,A+1) = P1∗ADJ(A)+P2∗ADV (A)+P3∗CONJ(A)+P4∗DET (A)+P5∗EX(A)+P6∗FW (A)+P7∗MOD(A)+P8∗N(A)+P9∗NP (A)+P10∗NUM(A)+P11∗PRO(A)+P12∗P (A)+P13∗TO(A)+P14∗UH(A)+P15∗V (A)+P16∗V D(A)+P17∗V G(A)+P18∗V N(A)+P19∗WH(A)+P20∗SYW (A)+P21∗ADJ(A−1)+P22∗ADV (A−1)+P23∗CONJ(A−1)+P24∗DET (A−1)+P25∗EX(A−1)+P26∗FW (A−1)+P27∗MOD(A−1)+P28∗N(A−1)+P29∗NP (A−1)+P30∗NUM(A−1)+P31∗PRO(A−1)+P32∗P (A−1)+P33∗TO(A−1)+P34∗UH(A−1)+P35∗V (A−1)+P36∗V D(A−1)+P37∗V G(A−1)+P38∗V N(A−1)+P39∗WH(A−1)+P40∗SYW (A−1)+P41∗ADJ(A+1)+P42∗ADV (A+1)+P43∗CONJ(A+1)+P44∗DET (A+1)+P45∗EX(A+1)+P46∗FW (A+1)+P47∗MOD(A+1)+P48∗N(A+1)+P49∗NP (A+1)+P50∗NUM(A+1)+P51∗PRO(A+1)+P52∗P (A+1)+P53∗TO(A+1)+P54∗UH(A+1)+P55∗V (A+1)+P56∗V D(A+1)+P57∗V G(A+1)+P58∗V N(A+1)+P59∗WH(A+1)+P60∗SYW (A+1)Na func¸a˜o heur´ıstica A-1, A e A+1, representam a´tomo anterior, a´tomo em ana´lise e a´tomoseguinte.5 Avaliac¸a˜oNum dos testes fizemos 3 experieˆncias nas quais apuramos os paraˆmetros usando a func¸a˜o heur´ısticade forma isolada para cada classe gramatical com as seguintes informac¸o˜es do ficheiro testa: a´tomosamb´ıguos, a´tomos sem contradito´rios e todos os a´tomos. Posteriormente com os paraˆmetros en-contrados foi feita etiquetac¸a˜o do ficheiro testb, os resultados encontram-se na tabela 2.Amb´ıguos Sem contradito´rios TodosCAT PREC COB MED-F PREC COB MED-F PREC COB MED-FADJ 0,6899 0,7434 0,7157 0,6878 0,7934 0,7368 0,6909 0,8217 0,7507ADV 0,7661 0,2161 0,3371 0,8461 0,6358 0,7260 0,8761 0,6424 0,7413CONJ 0,9793 0,5569 0,7100 0,9922 0,9935 0,9928 0,9961 0,9908 0,9934DET 0,9846 0,9825 0,9836 0,9774 0,9872 0,9823 0,9847 0,9882 0,9865EX 0,8889 0,9412 0,9143 0,9655 0,8235 0,8889 0,8857 0,9118 0,8986FW 1,0 0,0000 0,0000 1,0 0,0000 0,0000 1,0 0,0000 0,0000MOD 0,9431 0,9888 0,9654 0,9462 0,9851 0,9653 0,9336 0,9963 0,9639N 0,8019 0,8356 0,8184 0,7602 0,8750 0,8136 0,7713 0,8688 0,8172NP 0,8023 0,5702 0,6666 0,9407 0,6032 0,7351 0,8891 0,6615 0,7586NUM 0,9792 0,9890 0,9840 0,9816 0,9990 0,9902 0,9798 0,9863 0,9830PRO 0,9965 0,9567 0,9762 0,9900 0,9867 0,9883 0,9955 0,9767 0,9860P 0,9260 0,9835 0,9539 0,9284 0,9773 0,9522 0,9265 0,9766 0,9509TO 1,0 0,4315 0,6029 1,0 0,9963 0,9982 1,0 0,9988 0,9994UH 0,5556 0,7143 0,6250 0,8333 0,7143 0,7692 0,8000 0,5714 0,6667V 0,9136 0,7305 0,8118 0,8828 0,7848 0,8309 0,8994 0,8001 0,8469VD 0,8795 0,8546 0,8669 0,8769 0,9141 0,8951 0,8879 0,9182 0,9028VG 0,8488 0,6033 0,7053 0,8229 0,9215 0,8694 0,8550 0,9256 0,8889VN 0,8318 0,7136 0,7682 0,8411 0,7760 0,8072 0,8739 0,7206 0,7899WH 0,9464 0,8689 0,9060 0,9579 0,9705 0,9642 0,9581 0,9738 0,9659SYM 0,9854 0,0690 0,1289 0,9924 0,9990 0,9957 0,9929 0,9973 0,9951Table 2. Etiquetac¸a˜o isolada usando no treino a´tomos amb´ıguos, a´tomos sem contradito´rios e todos osa´tomosNum outro teste fizemos tambe´m outras 3 experieˆncias na quais etiquetamos o ficheiro testbusando os paraˆmetros encontrados de forma isolada para cada uma das classes gramaticais comas seguintes informac¸o˜es do ficheiro testa: a´tomos amb´ıguos, a´tomos sem contradito´rios e todosos a´tomos. Neste teste escolhemos para cada a´tomo a classe gramatical que obteve o valor maisalto de heur´ıstica. Os resultados alcanc¸ados com os a´tomos amb´ıguos, a´tomos sem contradito´riose todos os a´tomos, foram respectivamente 0.8348, 0.8522 e 0.8598.Finalmente num outro teste fizemos 3 experieˆncias nas quais marcamos: adjectivos, substan-tivos e nomes pro´prios. No ficheiro de treino testa estas classes sa˜o aquelas que teˆm maioresfrequeˆncias de a´tomos e onde a etiquetac¸a˜o teve menor desempenho. Neste teste etiquetamos su-cessivamente as classes que obtiveram maiores percentagens de erro durante 3 iterac¸o˜es. Os ganhosna etiquetac¸a˜o das classes adjectivo, substantivo e nome pro´prio, foram respectivamente 0.0746,0.0673 e 0.0708.MARCAC¸A˜OADJ N NPADJ – 0,0285 0,0160ADV 0,0424 0,0030 0,0037CONJ 0,0 0,0 0,0017DET 0,0030 0,0007 0,0075EX 0,0 0,0 0,0FW 0,0 0,0 0,0020MOD 0,0 0,0019 0,0018N 0,0811 – 0,0335% NP 0,1436 0,1327 –DE NUM 0,0089 0,0064 0,0292ERRO PRO 0,0 0,0 0,0023P 0,0050 0,0004 0,0040TO 0,0 0,0 0,0017UH 0,0 0,0 0,0006V 0,0026 0,0440 0,0021VD 0,0073 0,0037 0,0002VG 0,0083 0,0064 0,0005VN 0,0069 0,0010 0,0020WH 0,0 0,0 0,0003SYM 0,0 0,0 0,0018Table 3. Percentagem de erros na marcac¸a˜o de adjectivos, substantivos e nomes pro´prios6 Conclusa˜o e Trabalho FuturoNa experieˆncia em que usamos os paraˆmetros que foram apurados com todos os a´tomos do ficheirotesta conseguimos melhores resultados. No entanto, a diferenc¸a em relac¸a˜o a` experieˆncia na qualusamos os a´tomos sem contradito´rios na˜o foi significativa (na˜o chegou a 0.01 de erro). Ja´ naexperieˆncia na qual usamos apenas a´tomos amb´ıguos existiu uma perda de cerca de 0.02.Etiquetar sucessivamente as classes que obteˆm maior percentagem de erro permite alcanc¸arganhos no desempenho do sistema.Como trabalho futuro pensamos fazer estudos nos quais:– retiramos os contradito´rio com menores frequeˆncias;– retiramos a´tomos na˜o amb´ıguos;– marcamos sucessivamente as classes que obteˆm maior percentagem de erro ate´ na˜o existirperda no desempenho;– etiquetamos nomes pro´prios antes de etiquetar todas as outras classes gramaticais;– adicionamos informac¸a˜o de dois ou mais a´tomos anteriores e de dois ou mais a´tomos seguintesao a´tomo em ana´lise;

POS-Tagging usando pesquisa local

Abstract

Similar works

Full text

Available Versions

Repositório Científico da Universidade de Évora