7 research outputs found

    As unidades especializadas poliléxicas nominais (UEPNS) nos manuais de aviação

    Get PDF
    O objetivo do presente trabalho é apresentar e caracterizar as unidades especializadas poliléxicas nominais (UEPNs), como parte de um trabalho maior que é a elaboração de um glossário para estudantes de um curso de inglês para aviação. Iniciamos o artigo abordando a questão da diversidade denominativa e conceitual associada às UEPNs. Como não há unanimidade na literatura sobre o assunto, procuramos esclarecer onde a diferença denominativa realmente corresponde a uma diferença conceitual. Em seguida, tratamos da caracterização formal das unidades, apresentando os elementos que podem constituí-las e as relações entre eles. Por fim, revisamos a literatura quanto a problemas e soluções relativos à interpretação das UEPNs, geralmente resultantes da grande compactação de informação em um número restrito de palavras, o que torna o entendimento dessas unidades ainda mais complexo quando se trata de um público não especializado. Para tanto, são abordados os trabalhos de autores como Downing, Sager, Lehrberger, Trimble e Shawcross. Encerramos retomando algumas questões que deverão ser levadas em conta quando da interpretação das UEPNs, apoiada em uma matriz de relações semânticas para a análise dessas unidades no âmbito da aviação

    Statistical parsing of noun phrase structure

    Get PDF
    Noun phrases (NPs) are a crucial part of natural language, exhibiting in many cases an extremely complex structure. However, NP structure is largely ignored by the statistical parsing field, as the most widely-used corpus is not annotated with it. This lack of gold-standard data has restricted all previous efforts to parse NPs, making it impossible to perform the supervised experiments that have achieved high performance in so many Natural Language Processing (NLP) tasks. We comprehensively solve this problem by manually annotating NP structure for the entire Wall Street Journal section of the Penn Treebank. The inter-annotator agreement scores that we attain refute the belief that the task is too difficult, and demonstrate that consistent NP annotation is possible. Our gold-standard NP data is now available and will be useful for all parsers. We present three statistical methods for parsing NP structure. Firstly, we apply the Collins (2003) model, and find that its recovery of NP structure is significantly worse than its overall performance. Through much experimentation, we determine that this is not a result of the special base-NP model used by the parser, but primarily caused by a lack of lexical information. Secondly, we construct a wide-coverage, large-scale NP Bracketing system, applying a supervised model to achieve excellent results. Our Penn Treebank data set, which is orders of magnitude larger than those used previously, makes this possible for the first time. We then implement and experiment with a wide variety of features in order to determine an optimal model. Having achieved this, we use the NP Bracketing system to reanalyse NPs outputted by the Collins (2003) parser. Our post-processor outperforms this state-of-the-art parser. For our third model, we convert the NP data to CCGbank (Hockenmaier and Steedman, 2007), a corpus that uses the Combinatory Categorial Grammar (CCG) formalism. We experiment with a CCG parser and again, implement features that improve performance. We also evaluate the CCG parser against the Briscoe and Carroll (2006) reannotation of DepBank (King et al., 2003), another corpus that annotates NP structure. This supplies further evidence that parser performance is increased by improving the representation of NP structure. Finally, the error analysis we carry out on the CCG data shows that again, a lack of lexicalisation causes difficulties for the parser. We find that NPs are particularly reliant on this lexical information, due to their exceptional productivity and the reduced explicitness present in modifier sequences. Our results show that NP parsing is a significantly harder task than parsing in general. This thesis comprehensively analyses the NP parsing task. Our contributions allow wide-coverage, large-scale NP parsers to be constructed for the first time, and motivate further NP parsing research for the future. The results of our work can provide significant benefits for many NLP tasks, as the crucial information contained in NP structure is now available for all downstream systems

    A Syntactic Treatment of Adjectival Non-Intersectivity in English

    Full text link
    Natural language has long been observed to be rife with apparently \u27non-intersective\u27 modification constructions (false teeth, huge flea, heavy smoker, etc.), whose apparent non-compositionality poses difficulties for formally-articulated theories of language. Bolinger\u27s (1967) demonstration of the extent and significance of the issue ushered in several lines of investigation, first in semantics (most notably Kamp 1975, Siegel 1976, Partee 2009), but more recently in syntax as well, with the insights of Larson (1998) and Bouchard (2002) informing approaches to the nominal domain such as that in Cinque (2010). However, \u27semantics-only\u27 accounts of non-intersectivity phenomena have limited explanatory capacity given the clear sensitivity of syntax to intersectivity, and recent syntactic proposals leave many questions about non-intersectivity largely unresolved, particularly the implications of non-intersective adnominal modification (NIAM) for the internal structure of the Determiner Phrase (DP), and for fundamental conceptions of category and predication. This thesis articulates the alignment of NIAM intepretation patterns based on an enriched typology of both adjectives and nouns. In particular, it exploits non-lexicalist approaches to syntax--the \u27late insertion\u27 approach of Distributed Morphology (Halle & Marantz 1993, 1994)--as well as non-directional predication structures (den Dikken 2006) to develop an understanding of interpretation and distribution patterns of English NIAM structures which elude explanation in simpler, \u27bivalent\u27 approaches to non-intersectivity. By outlining analyses for reference examples from a wide range of NIAM types, it demonstrates the potential for this line of analysis to capture putative \u27non-intersectivity\u27 intersectively, and to develop a unified understanding of predication and modification

    Problemas conceptuales en la traducción técnica: textos de automoción

    Get PDF
    Este trabajo de investigación empírica, basado en un corpus escrito, estudia aspectos de la traducción directa, del inglés al español, de textos técnicos del ámbito de la mecánica de automoción. Se sitúa, por una parte, en el marco de los estudios contrastivos inglés-español desde la perspectiva del inglés para fines específicos y, por otra, en los estudios descriptivos y aplicados de la Traductología. Aunque se propone traducción propia para el corpus principal, el interés se centra en un paso del proceso traductor: la comprensión del texto original. Primero.—Se selecciona un número de fuentes de documentación y se analiza si logra compensar las carencias conceptuales del traductor al traducir los elementos problemáticos del texto original. Segundo.—Se analizan los compuestos nominales por si hubiera aspectos gramaticales que permitieran diseñar un instrumento gramatical que facilitase su comprensión. Tercero.—Se evalúan los datos obtenidos durante más de veinte años de experiencia docente universitaria en la asignatura Traducción de Textos Científico-Técnicos: se analizan los resultados de las traducciones del corpus principal realizadas por estudiantes y se contrastan estos datos con los resultados de los análisis de las fuentes de documentación y de los compuestos nominales. El texto del corpus principal pertenece al mundo de la mecánica de automoción, y se centra en el motor de combustión interna de cuatro tiempos, concretamente, en el de cuatro cilindros en línea con árbol de levas en cabeza, probablemente, el más corriente hoy en día. Por tanto, los conceptos y términos están consolidados y son corrientes desde hace décadas. Un rasgo característico de los textos técnicos es la frecuencia relativamente alta de los compuestos nominales. Un aspecto que dificulta la comprensión es que las relaciones semánticas entre los elementos del compuesto nominal están ocultas. Dada su frecuencia y opacidad, es previsible que, para el traductor de textos técnicos con carencias conceptuales, los compuestos nominales representen uno de los principales escollos. Se analizan compuestos nominales tomados del corpus secundario (consistente en varios textos de mecánica de automoción) para llegar a una propuesta de instrumento gramatical que revele las relaciones semánticas ocultas de los compuestos nominales; posteriormente, se aplica dicho instrumento al análisis de los compuestos nominales del corpus principal. Este trabajo se propone un objetivo secundario: que sea de utilidad como material de referencia. Varios aspectos pretenden facilitar este fin: a) El texto original está confrontado con su traducción, con líneas convergentes. b) Se disponen en orden alfabético las entradas del catálogo de elementos problemáticos extraídos del texto original. c) Las entradas incluyen, además del análisis de las fuentes de documentación, explicaciones y descripciones conceptuales, análisis y propuestas de traducción. d) Las entradas van acompañadas del número del apartado y del paso concreto de las instrucciones de los que fueron extraídas. e) Los elementos extraídos están sombreados en el texto original y sus traducciones están subrayadas en el texto meta
    corecore