22 research outputs found
Detección de géneros textuales que presentan dificultades de redacción: un estudio en los ámbitos de la administración, la medicina y el turismo
Los textos especializados resultan especialmente difíciles de escribir, ya que son fruto de la comunicación especializada y tienen unos rasgos concretos que pueden variar en función del ámbito o del género textual. El objetivo de este trabajo es detectar los géneros más frecuentes y más difíciles de escribir por parte de varios colectivos (especialistas, estudiantes y legos) en diferentes ámbitos especializados, junto con las principales dificultades de redacción. Empleamos una metodología basada en entrevistas presenciales y encuestas en línea, que nos permiten lograr nuestro objetivo satisfactoriamente
Generació automàtica de resums de textos especialitzats: experimentacions en llengua catalana
En aquest article presentem un nou algoritme per al resum
automàtic de textos especialitzats, que combina recursos terminològics
(l'ús de l'extractor de termes YATE) i semàntics
(consulta de l'ontologia lèxica EuroWordNet). Apliquem l'algoritme
a un corpus de textos mèdics en català i n'avaluem
els resums automàtics produïts, amb el sistema FRESA, tot
comparant-los amb sengles resums baseline i amb els resums
d'un altre resumidor automàtic, el sistema OTS. L'algoritme
proposat obté prou bons resultats, però el potencial de millora
és, segons el nostre parer, molt alt.In this article we present a new algorithm for the automatic
summarisation of specialized texts, which combines terminological
resources (YATE as a terminology extractor) and
semantic resources (EuroWordNet as a lexical ontology). We
apply this algorithm to a corpus of medical texts in Catalan
and we evaluate the automatic summaries produced with the
system FRESA, comparing them with baseline summaries and
with results of another automatic summary system, the OTS.
The new algorithm yields adequate results, but the potential
for improvement is, in our view, very high
DiSeg: an automatic discourse segmenter for Spanish
Hoy en día el análisis discursivo automático es un tema de investigación relevante. Sin embargo, no existen analizadores del discurso para textos en español. El primer paso para desarrollar esta herramienta es la segmentación discursiva. En este artículo presentamos DiSeg, el primer segmentador discursivo para el español que utiliza el marco de la Rhetorical Structure Theory (Mann y Thompson, 1988) y se basa en reglas léxicas y sintácticas. Describimos el sistema y evaluamos sus resultados con un corpus gold standard, obteniendo resultados prometedores.Nowadays discourse parsing is a very prominent research topic. However, there is not a discourse parser for Spanish texts. The first stage in order to develop this tool is discourse segmentation. In this work, we present DiSeg, the first discourse segmenter for Spanish that uses the framework of the Rhetorical Structure Theory (Mann and Thompson, 1988) and is based on lexical and syntactic rules. We describe the system and we evaluate its performance with a gold standard corpus, obtaining promising results.Parte de este trabajo ha sido financiado mediante una ayuda de movilidad posdoctoral otorgada por el Ministerio de Ciencia e Innovación de España (Programa Nacional de Movilidad de Recursos Humanos de Investigación; Plan Nacional de Investigación Científica, Desarrollo e Innovación 2008-2011) a Iria da Cunha
El sistema ARTEXT CLARO: un auxiliar per a la redacció de textos administratius en llenguatge planer
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
En esta tesis se presenta un modelo lingüístico de resumen automático de artículos médicos en español que aúna criterios basados en la estructura textual, en las unidades léxicas y la estructura discursiva y sintáctico-comunicativa de los textos. El modelo se crea partiendo de la hipótesis de que los especialistas de cada ámbito emplean estrategias específicas a la hora de resumir. La validación de esta hipótesis mediante experimentos estadísticos permite tomar los artículos médicos acompañados de sus respectivos resúmenes como material de referencia para analizar, de cara a detectar las estrategias empleadas por los profesionales médicos para resumir sus textos. Una vez detectadas, estas estrategias se formalizan en forma de reglas y se diseña un modo de integración de las mismas. Esto da lugar al modelo presentado en esta tesis, del cual se implementa una parte. Los resúmenes resultantes se evalúan obteniendo buenos resultados, lo cual confirma que el modelo simula correctamente las estrategias empleadas por los especialistas y que estas se refieren a diversos aspectos lingüísticos.In this thesis a linguistic model of automatic summarization of Spanish medical articles that joins criteria based on the textual structure, on lexical units and on the discourse and syntactic-communicative structure of texts is presented. The model is developed under the hypothesis that specialists of a domain use specific strategies when they summarize. The validation of this hypothesis by means of statistical experiments allows us to draw upon medical articles and their respective abstracts as reference in order to determine the strategies used by medical professionals. Once these strategies have been determined, they are formalized in terms of an integrated rule-based system, of which a part is implemented. The resulting summaries have been evaluated. Good results were obtained, which confirms that the model simulates correctly the strategies used by specialists and that these strategies refer to different linguistic aspects
Textual genres and writing difficulties in specialized domains
Writing is widely believed to be more difficult than reading comprehension. This difficulty is even greater for specialized texts; as a type of specialized communication, they must obey concrete norms, which can vary based on domain or textual genre. This article aims to identify the most frequently written genres and greatest writing challenges among different groups (specialists, students, and laypersons) in the specialized domains of medicine, tourism and the public administration and to identify the major writing difficulties they pose. A series of in-person interviews and online surveys were conducted. Quantitative and qualitative analysis shed light on the textual genres posing the greatest writing difficulties for the target groups and the causes thereof