123 research outputs found

    Cross-domain analysis of discourse markers in European Portuguese

    Get PDF
    This paper presents an analysis of discourse markers in two spontaneous speech corpora for European Portuguese - university lectures and map-task dialogues - and also in a collection of tweets, aiming at contributing to their categorization, scarcely existent for European Portuguese. Our results show that the selection of discourse markers is domain and speaker dependent. We also found that the most frequent discourse markers are similar in all three corpora, despite tweets containing discourse markers not found in the other two corpora. In this multidisciplinary study, comprising both a linguistic perspective and a computational approach, discourse markers are also automatically discriminated from other structural metadata events, namely sentence-like units and disfluencies. Our results show that discourse markers and disfluencies tend to co-occur in the dialogue corpus, but have a complementary distribution in the university lectures. We used three acoustic-prosodic feature sets and machine learning to automatically distinguish between discourse markers, disfluencies and sentence-like units. Our in-domain experiments achieved an accuracy of about 87% in university lectures and 84% in dialogues, in line with our previous results. The eGeMAPS features, commonly used for other paralinguistic tasks, achieved a considerable performance on our data, especially considering the small size of the feature set. Our results suggest that turn-initial discourse markers are usually easier to classify than disfluencies, a result also previously reported in the literature. We conducted a cross-domain evaluation in order to evaluate the robustness of the models across domains. The results achieved are about 11%-12% lower, but we conclude that data from one domain can still be used to classify the same events in the other. Overall, despite the complexity of this task, these are very encouraging state-of-the-art results. Ultimately, using exclusively acoustic-prosodic cues, discourse markers can be fairly discriminated from disfluencies and SUs. In order to better understand the contribution of each feature, we have also reported the impact of the features in both the dialogues and the university lectures. Pitch features are the most relevant ones for the distinction between discourse markers and disfluencies, namely pitch slopes. These features are in line with the wide pitch range of discourse markers, in a continuum from a very compressed pitch range to a very wide one, expressed by total deaccented material or H+L* L* contours, with upstep H tones

    Prosodic Classification of Discourse Markers

    Get PDF
    The first contribution of this study is the description of the prosodic behavior of discourse markers present in two speech corpora of European Portuguese (EP) in different domains (university lectures, and map-task dialogues). The second contribution is a multiclass classification to verify, given their prosodic features, which words in both corpora are classified as discourse markers, which are disfluencies, and which correspond to words that are neither markers nor disfluencies (chunks). Our goal is to automatically predict discourse markers and include them in rich transcripts, along with other structural metadata events (e.g., disfluencies and punctuation marks) that are already encompassed in the language models of our in-house speech recognizer. Results show that the automatic classification of discourse markers is better for the lectures corpus (87%) than for the dialogue corpus (84%). Nonetheless, in both corpora, discourse markers are more easily confused with chunks than with disfluencies.info:eu-repo/semantics/publishedVersio

    Revising the Annotation of a Broadcast News Corpus: a Linguistic Approach

    Get PDF
    This paper presents a linguistic revision process of a speech corpus of Portuguese broadcast news focusing on metadata annotation for rich transcription, and reports on the impact of the new data on the performance for several modules. The main focus of the revision process consisted on annotating and revising structural metadata events, such as disfluencies and punctuation marks. The resultant revised data is now being extensively used, and was of extreme importance for improving the performance of several modules, especially the punctuation and capitalization modules, but also the speech recognition system, and all the subsequent modules. The resultant data has also been recently used in disfluency studies across domains.info:eu-repo/semantics/publishedVersio

    Classificação prosódica de marcadores discursivos

    Get PDF
    This work describes the discourse markers present in two corpora for European Portuguese, in different domains (university lectures and map-task dialogues). In this study, we also perform a multiclass automatic classification task based on prosodic features to verify in both corpora which words are discourse markers, which are disfluencies, and which are sentence like-units (SUs). Results show that the selection of discourse markers varies across domain and between speakers. As for the classification task, results show that the discourse markers are better classified in the lectures corpus (87%) than in the dialogue corpus (84%). However, cross-domain experiments evidenced that data trained with the dialogue corpus predicts better the events in the lecture corpus, since this domain displays more speakers and therefore complex patterns. In both corpora, markers are more easily classified as SUs than as disfluencies.info:eu-repo/semantics/publishedVersio

    Software abierto para la evaluación de sistemas criptológicos integrados

    Get PDF
    Es permanente la evaluación de la seguridad que debe llevarse a cabo en los sistemas de información, en la actualidad. Facilitar esta tarea tiene un alto impacto, así sea en la calidad de la seguridad del sistema, como en el aspecto económico de la misma al aumentar las herramientas de gestión de la seguridad, como así también un aporte a la reducción del tiempo de evaluación. Este proyecto persigue el diseño y desarrollo de una herramienta que permita llevar adelante la automatización de tales análisis y la realización de pruebas que permitan realizar el estudio de manera veloz y eficiente. Los usos de esta herramienta tiene aplicaciones DUAL, es decir puede destinarse para usos en el ámbito militar como también en el civil para ser aplicado en sectores gubernamentales, empresariales, educativos o privados. La modalidad de Código Abierto o FOSS (por siglas en inglés de Free Open Source Software) permite y facilita la amplia difusión de los usos y aplicaciones de esta herramienta. La evaluación de la seguridad implementada en un determinado sistema informático se ve ayudada por esta herramienta al permitir análisis estadístico de secuencias binarias para aplicar en algoritmos de Cifrado de Flujo (Stream Ciphers) y Generadores Pseudaleatorios de Números (Pseudo Random Numbers Generators) y de la Complejidad Lineal. Tales secuencias pueden ser generadas por LFSRs (Linear Feedback Shift Registers), NLFSRs (Non-Linear Feedback Shift Registers), CCGs (Clock Controlled Generators), protocolos de seguridad de la información, programas o dispositivos para la Generación de Claves, Block Ciphers y demás algoritmos aplicados en entornos de Software como de Hardware.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic

    Software abierto para la evaluación de sistemas criptológicos integrados

    Get PDF
    Es permanente la evaluación de la seguridad que debe llevarse a cabo en los sistemas de información, en la actualidad. Facilitar esta tarea tiene un alto impacto, así sea en la calidad de la seguridad del sistema, como en el aspecto económico de la misma al aumentar las herramientas de gestión de la seguridad, como así también un aporte a la reducción del tiempo de evaluación. Este proyecto persigue el diseño y desarrollo de una herramienta que permita llevar adelante la automatización de tales análisis y la realización de pruebas que permitan realizar el estudio de manera veloz y eficiente. Los usos de esta herramienta tiene aplicaciones DUAL, es decir puede destinarse para usos en el ámbito militar como también en el civil para ser aplicado en sectores gubernamentales, empresariales, educativos o privados. La modalidad de Código Abierto o FOSS (por siglas en inglés de Free Open Source Software) permite y facilita la amplia difusión de los usos y aplicaciones de esta herramienta. La evaluación de la seguridad implementada en un determinado sistema informático se ve ayudada por esta herramienta al permitir análisis estadístico de secuencias binarias para aplicar en algoritmos de Cifrado de Flujo (Stream Ciphers) y Generadores Pseudaleatorios de Números (Pseudo Random Numbers Generators) y de la Complejidad Lineal. Tales secuencias pueden ser generadas por LFSRs (Linear Feedback Shift Registers), NLFSRs (Non-Linear Feedback Shift Registers), CCGs (Clock Controlled Generators), protocolos de seguridad de la información, programas o dispositivos para la Generación de Claves, Block Ciphers y demás algoritmos aplicados en entornos de Software como de Hardware.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic

    Software abierto para la evaluación de sistemas criptológicos integrados

    Get PDF
    Es permanente la evaluación de la seguridad que debe llevarse a cabo en los sistemas de información, en la actualidad. Facilitar esta tarea tiene un alto impacto, así sea en la calidad de la seguridad del sistema, como en el aspecto económico de la misma al aumentar las herramientas de gestión de la seguridad, como así también un aporte a la reducción del tiempo de evaluación. Este proyecto persigue el diseño y desarrollo de una herramienta que permita llevar adelante la automatización de tales análisis y la realización de pruebas que permitan realizar el estudio de manera veloz y eficiente. Los usos de esta herramienta tiene aplicaciones DUAL, es decir puede destinarse para usos en el ámbito militar como también en el civil para ser aplicado en sectores gubernamentales, empresariales, educativos o privados. La modalidad de Código Abierto o FOSS (por siglas en inglés de Free Open Source Software) permite y facilita la amplia difusión de los usos y aplicaciones de esta herramienta. La evaluación de la seguridad implementada en un determinado sistema informático se ve ayudada por esta herramienta al permitir análisis estadístico de secuencias binarias para aplicar en algoritmos de Cifrado de Flujo (Stream Ciphers) y Generadores Pseudaleatorios de Números (Pseudo Random Numbers Generators) y de la Complejidad Lineal. Tales secuencias pueden ser generadas por LFSRs (Linear Feedback Shift Registers), NLFSRs (Non-Linear Feedback Shift Registers), CCGs (Clock Controlled Generators), protocolos de seguridad de la información, programas o dispositivos para la Generación de Claves, Block Ciphers y demás algoritmos aplicados en entornos de Software como de Hardware.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic

    Herramientas para la evaluación de algoritmos criptográficos

    Get PDF
    El aumento en el empleo de Internet en general y en particular de las tecnologías de Voz sobre IP, Teleconferencias, VideoStreaming, sistemas móviles y demás, han mostrado la necesidad de protegerlos mediante mecanismos criptográficos. A los ya conocidos estudios de las propiedades matemáticas de los Generadores de Secuencias Pseudorandom generadas por Stream Ciphers (algoritmos que involucran Linear Feedback Shift Registers, Non Linear Feedback Shift Registers), Clock Controlled Generators y Autómatas Celulares, las Substitution Boxes creadas para los Block Ciphers y los Generadores de Números Pseudoaleatorios que permiten evaluar propiedades criptológicas, se le debe agregar la posibilidad de la existencia de “puertas traseras” o “back-doors” presentados en recientes trabajos han sorprendido a la comunidad criptológica. Es por ello que se persigue la creación de herramientas que permitan automatizar tales análisis y la realización de pruebas, para llevar adelante el estudio de manera veloz y eficiente. Al ser sometidos a este escrutinio en profundidad, los algoritmos podrán ser calificados de acuerdo a las propiedades que manifiesten. De esta forma, el usuario podrá decidir acerca de su uso, de acuerdo al nivel de seguridad que se precise y el que el algoritmo finalmente ofrezca. Muchas propiedades criptológicas quedan ocultas detrás de las líneas de programación o en la complejidad matemática que compete a estos mecanismos. Suele ocurrir que las explicaciones técnicas más profundas no se abordan en detalle o son parcialmente expuestas. Los investigadores deben profundizar en cada algoritmo y mediante su estudio, deducir sus propiedades.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic

    Herramientas para la evaluación de algoritmos criptográficos

    Get PDF
    El aumento en el empleo de Internet en general y en particular de las tecnologías de Voz sobre IP, Teleconferencias, VideoStreaming, sistemas móviles y demás, han mostrado la necesidad de protegerlos mediante mecanismos criptográficos. A los ya conocidos estudios de las propiedades matemáticas de los Generadores de Secuencias Pseudorandom generadas por Stream Ciphers (algoritmos que involucran Linear Feedback Shift Registers, Non Linear Feedback Shift Registers), Clock Controlled Generators y Autómatas Celulares, las Substitution Boxes creadas para los Block Ciphers y los Generadores de Números Pseudoaleatorios que permiten evaluar propiedades criptológicas, se le debe agregar la posibilidad de la existencia de “puertas traseras” o “back-doors” presentados en recientes trabajos han sorprendido a la comunidad criptológica. Es por ello que se persigue la creación de herramientas que permitan automatizar tales análisis y la realización de pruebas, para llevar adelante el estudio de manera veloz y eficiente. Al ser sometidos a este escrutinio en profundidad, los algoritmos podrán ser calificados de acuerdo a las propiedades que manifiesten. De esta forma, el usuario podrá decidir acerca de su uso, de acuerdo al nivel de seguridad que se precise y el que el algoritmo finalmente ofrezca. Muchas propiedades criptológicas quedan ocultas detrás de las líneas de programación o en la complejidad matemática que compete a estos mecanismos. Suele ocurrir que las explicaciones técnicas más profundas no se abordan en detalle o son parcialmente expuestas. Los investigadores deben profundizar en cada algoritmo y mediante su estudio, deducir sus propiedades.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic

    Herramientas para la evaluación de algoritmos criptográficos

    Get PDF
    El aumento en el empleo de Internet en general y en particular de las tecnologías de Voz sobre IP, Teleconferencias, VideoStreaming, sistemas móviles y demás, han mostrado la necesidad de protegerlos mediante mecanismos criptográficos. A los ya conocidos estudios de las propiedades matemáticas de los Generadores de Secuencias Pseudorandom generadas por Stream Ciphers (algoritmos que involucran Linear Feedback Shift Registers, Non Linear Feedback Shift Registers), Clock Controlled Generators y Autómatas Celulares, las Substitution Boxes creadas para los Block Ciphers y los Generadores de Números Pseudoaleatorios que permiten evaluar propiedades criptológicas, se le debe agregar la posibilidad de la existencia de “puertas traseras” o “back-doors” presentados en recientes trabajos han sorprendido a la comunidad criptológica. Es por ello que se persigue la creación de herramientas que permitan automatizar tales análisis y la realización de pruebas, para llevar adelante el estudio de manera veloz y eficiente. Al ser sometidos a este escrutinio en profundidad, los algoritmos podrán ser calificados de acuerdo a las propiedades que manifiesten. De esta forma, el usuario podrá decidir acerca de su uso, de acuerdo al nivel de seguridad que se precise y el que el algoritmo finalmente ofrezca. Muchas propiedades criptológicas quedan ocultas detrás de las líneas de programación o en la complejidad matemática que compete a estos mecanismos. Suele ocurrir que las explicaciones técnicas más profundas no se abordan en detalle o son parcialmente expuestas. Los investigadores deben profundizar en cada algoritmo y mediante su estudio, deducir sus propiedades.Eje: Seguridad Informática.Red de Universidades con Carreras en Informátic
    corecore