97 research outputs found
Revista da Associação Portuguesa de Linguística
N.º 10 (2023) da Revista da Associação Portuguesa de Linguísticainfo:eu-repo/semantics/publishedVersio
Modeling Deception for Cyber Security
In the era of software-intensive, smart and connected systems, the growing power and so-
phistication of cyber attacks poses increasing challenges to software security. The reactive
posture of traditional security mechanisms, such as anti-virus and intrusion detection
systems, has not been sufficient to combat a wide range of advanced persistent threats
that currently jeopardize systems operation. To mitigate these extant threats, more ac-
tive defensive approaches are necessary. Such approaches rely on the concept of actively
hindering and deceiving attackers. Deceptive techniques allow for additional defense by
thwarting attackers’ advances through the manipulation of their perceptions. Manipu-
lation is achieved through the use of deceitful responses, feints, misdirection, and other
falsehoods in a system. Of course, such deception mechanisms may result in side-effects
that must be handled. Current methods for planning deception chiefly portray attempts
to bridge military deception to cyber deception, providing only high-level instructions
that largely ignore deception as part of the software security development life cycle. Con-
sequently, little practical guidance is provided on how to engineering deception-based
techniques for defense. This PhD thesis contributes with a systematic approach to specify
and design cyber deception requirements, tactics, and strategies. This deception approach
consists of (i) a multi-paradigm modeling for representing deception requirements, tac-
tics, and strategies, (ii) a reference architecture to support the integration of deception
strategies into system operation, and (iii) a method to guide engineers in deception mod-
eling. A tool prototype, a case study, and an experimental evaluation show encouraging
results for the application of the approach in practice. Finally, a conceptual coverage map-
ping was developed to assess the expressivity of the deception modeling language created.Na era digital o crescente poder e sofisticação dos ataques cibernéticos apresenta constan-
tes desafios para a segurança do software. A postura reativa dos mecanismos tradicionais
de segurança, como os sistemas antivírus e de detecção de intrusão, não têm sido suficien-
tes para combater a ampla gama de ameaças que comprometem a operação dos sistemas
de software actuais. Para mitigar estas ameaças são necessárias abordagens ativas de
defesa. Tais abordagens baseiam-se na ideia de adicionar mecanismos para enganar os
adversários (do inglês deception). As técnicas de enganação (em português, "ato ou efeito
de enganar, de induzir em erro; artimanha usada para iludir") contribuem para a defesa
frustrando o avanço dos atacantes por manipulação das suas perceções. A manipula-
ção é conseguida através de respostas enganadoras, de "fintas", ou indicações erróneas
e outras falsidades adicionadas intencionalmente num sistema. É claro que esses meca-
nismos de enganação podem resultar em efeitos colaterais que devem ser tratados. Os
métodos atuais usados para enganar um atacante inspiram-se fundamentalmente nas
técnicas da área militar, fornecendo apenas instruções de alto nível que ignoram, em
grande parte, a enganação como parte do ciclo de vida do desenvolvimento de software
seguro. Consequentemente, há poucas referências práticas em como gerar técnicas de
defesa baseadas em enganação. Esta tese de doutoramento contribui com uma aborda-
gem sistemática para especificar e desenhar requisitos, táticas e estratégias de enganação
cibernéticas. Esta abordagem é composta por (i) uma modelação multi-paradigma para re-
presentar requisitos, táticas e estratégias de enganação, (ii) uma arquitetura de referência
para apoiar a integração de estratégias de enganação na operação dum sistema, e (iii) um
método para orientar os engenheiros na modelação de enganação. Uma ferramenta protó-
tipo, um estudo de caso e uma avaliação experimental mostram resultados encorajadores
para a aplicação da abordagem na prática. Finalmente, a expressividade da linguagem
de modelação de enganação é avaliada por um mapeamento de cobertura de conceitos
O igri in delu
The monograph introduces the concept of work, which is inherent in human being as is play. This concept of work can be understood simultaneously as a powerful means of socialisation and as a disciplining instrument. The author problematizes the dichotomy between play and work as a construct that emerged in the specific historical and geographical context of early industrialization. She introduces the educational value attributed to work and presents how this understanding of work has historically changed through different political and socio-economic circumstances. Drawing on ethnographic studies and theorising from the fields of psychology, sociology, cultural anthropology, and social anthropology, the author analyses why and how preschool children participate in everyday work at home and in kindergarten. The author draws connections between children's participation in work and children's sociality and intersubjectivity as core human capacities as social beings. Preschool children are included as research participants along with adults, and by presenting their perspectives, this volume demonstrates the complexity of social life from an early age.Monografija predstavi koncept dela, ki je tako kot igra lasten človeškemu bitju ter ima hkrati močan socializacijski naboj in lahko predstavlja sredstvo discipliniranja. Ob tem, da problematizira dihotomijo med igro in delom kot konstruktom, ki je plod določenega zgodovinskega in geografskega konteksta, ki izhaja iz zgodnje industrializacije, uvede tudi koncept dela kot vzgojnega ter predstavi, kako se je spreminjal skozi čas glede na različne politične, družbene in ekonomske okoliščine. Na podlagi etnografske raziskave in sodobnih znanstvenih dognanj s področja psihologije, sociologije in kulturne ter socialne antropologije avtorica podaja analizo, zakaj in kako se v vsakdanjem življenju predšolski otroci vključujejo v delovna opravila v okviru družine ter vrtčevske skupine. Vključevanje v delo avtorica naveže na otrokovo sposobnost družbenosti in intersubjektivnosti – ključni komponenti človeka kot družbenega bitja. Monografija ob bok odraslim sogovornikom postavi predšolske otroke. Tako predstavi kompleksnost družbenega življenja v najzgodnejši dobi in podaja nov pogled na to, kako se oblikuje kulturno pogojeno razumevanje dela in igre ter kako se vzpostavlja odnos med njima
The diachronic typology of differential argument marking
Finnish existential clauses are known for the case marking of their S arguments, whichalternates between the nominative and the partitive. Existential S arguments introduce adiscourse-new referent, and, if headed by a mass noun or a plural form, are marked with thepartitive case that indicates non-exhaustive quantification (as in ‘There is some coffee in thecup’). In the literature it has often been observed that the partitive is occasionally used evenin transitive clauses to mark the A argument. In this work I analyze a hand-picked set ofexamples to explore this partitive A. I argue that the partitive A phrase often has an animatereferent; that it is most felicitous in low-transitivity expressions where the O argumentis likewise in the partitive (to indicate non-culminating aspect); that a partitive A phrasetypically follows the verb, is in the plural and is typically modified by a quantifier (‘many’, ‘alot of’). I then argue that the pervasiveness of quantifying expressions in partitive A phrasesreflects a structural analogy with (pseudo)partitive constructions where a nominative headis followed by a partitive modifier (e.g. ‘a group of students’). Such analogies may be relevantin permitting the A function to be fulfilled by many kinds of quantifier + partitive NPs.</p
Preprocessing models for speech technologies : the impact of the normalizer and the grapheme-to-phoneme on hybrid systems
Um dos usos mais promissores e de crescimento mais rápido da tecnologia de linguagem natural corresponde às Tecnologias de Processamento da Fala. Esses sistemas usam tecnologia de reconhecimento automático de fala e conversão de texto em fala para fornecer uma interface de voz para aplicações de conversão. Com efeito, esta tecnologia está presente em diversas situações do nosso quotidiano, tais como assistentes virtuais em smartphones (como a SIRI ou Alexa), ou sistemas de interação por voz em automóveis.
As tecnologias de fala evoluíram progressivamente até ao ponto em que os sistemas podem prestar pouca atenção à sua estrutura linguística. Com efeito, o Conhecimento Linguístico pode ser extremamente importante numa arquitetura de fala, particularmente numa fase de pré-processamento de dados: combinar conhecimento linguístico em modelo de tecnologia de fala permite produzir sistemas mais confiáveis e robustos.
Neste sentido, o pré-processamento de dados é uma etapa fundamental na construção de um modelo de Inteligência Artificial (IA). Se os dados forem razoavelmente pré-processados, os resultados serão consistentes e de alta qualidade (García et al., 2016). Por exemplo, os sistemas mais modernos de reconhecimento de fala permitem modelizar entidades linguísticas em vários níveis, frases, palavras, fones e outras unidades, usando várias abordagens estatísticas (Jurafsky & Martin, 2022). Apesar de treinados sobre dados, estes sistemas são tão mais precisos quanto mais eficazes e eficientes a capturarem o conhecimento linguístico.
Perante este cenário, este trabalho descreve os métodos de pré-processamento linguístico em sistemas híbridos (de inteligência artificial combinada com conhecimento linguístico) fornecidos por uma empresa internacional de Inteligência Artificial (IA), a Defined.ai. A start-up concentra-se em fornecer dados, modelos e ferramentas de alta qualidade para IA., a partir da sua plataforma de crowdsourcing Neevo. O utilizador da plataforma tem acesso a pequenas tarefas de anotação de dados, tais como: transcrição, gravação e anotação de áudios, validação de pronúncia, tradução de frases, classificação de sentimentos num texto, ou até extração de informação a partir de imagens e vídeos. Até ao momento, a empresa conta com mais de 500,000 utilizadores de 70 países e 50 línguas diferentes.
Através duma recolha descentralizada dos dados, a Defined.ai responde à necessidade crescente de dados de treino que sejam justos, i.e., que não reflitam e/ou amplifiquem os padrões de discriminação vigentes na nossa sociedade (e.g., de género, raça, orientação sexual). Como resultado, a Defined.ai pode ser vista como uma comunidade de especialistas em IA, que produz sistemas justos, éticos e de futuro.
Assim, o principal objetivo deste trabalho é aprimorar e avançar a qualidade dos modelos de pré-processamento, aplicando-lhes conhecimento linguístico. Assim, focamo-nos em dois modelos linguísticos introdutórios numa arquitetura de fala: Normalizador e Grafema-Fonema.
Para abordar o assunto principal deste estudo, vamos delinear duas iniciativas realizadas em colaboração com a equipa de Machine learning da Defined.ai. O primeiro projeto centra-se na expansão e melhoria de um modelo Normalizador pt-PT. O segundo projeto abrange a criação de modelos Grafema-Fonema (do inglês Grapheme-to-phoneme, G2P) para duas línguas diferentes – Sueco e Russo.
Os resultados mostram que ter uma abordagem baseada em regras para o Normalizador e G2P aumenta a sua precisão e desempenho, representado uma vantagem significativa na melhoria das ferramentas da Defined.ai e nas arquiteturas de fala. Além disso, com os resultados obtidos no primeiro projeto, melhoramos o normalizador na sua facilidade de uso, aumentando cada regra com o respetivo conhecimento linguístico. Desta forma, a nossa pesquisa demonstra o valor e a importância do conhecimento linguístico em modelos de pré-processamento.
O primeiro projeto teve como objetivo fornecer cobertura para diversas regras linguísticas: Números Reais, Símbolos, Abreviaturas, Ordinais, Medidas, Moeda, Datas e Hora. A tarefa consistia em expandir as regras com suas respetivas expressões normalizadas a partir de regras a seguir que teriam uma leitura não marcada inequívoca própria. O objetivo principal é melhorar o normalizador tornando-o mais simples, consistente entre diferentes linguagens e de forma a cobrir entradas não ambíguas.
Para preparar um modelo G2P para dois idiomas diferentes - Sueco e Russo - quatro tarefas foram realizadas: 1. Preparar uma análise linguística de cada língua, 2. Desenvolver um inventário fonético-fonológico inicial, 3. Mapear e converter automaticamente o léxico fonético para DC-Arpabet (o alfabeto fonético que a Defined.ai construiu), 4. Rever e corrigir o léxico fonético, e 4. Avaliar o modelo Grafema-Fonema. A revisão dos léxicos fonéticos foi realizada, em consulta com a nossa equipa da Defined.ai, por linguistas nativos que verificaram se os inventários fonéticos-fonológicos seriam adequados para transcrever.
Segundo os resultados de cada modelo, nós avaliamos de acordo com 5 métricas padrão na literatura: Word Error Rate (WER), Precision, Recall, F1-score e Accuracy. Adaptamos a métrica WER para Word Error Rate over normalizable tokens (WERnorm) por forma a responder às necessidades dos nossos modelos. A métrica WER (ou taxa de erro por palavra) foi adaptada de forma a contabilizar tokens normalizáveis, em vez de todos os tokens. Deste modo, a avaliação do normalizador, avalia-se usando um conjunto de aproximadamente 1000 frases de referência, normalizadas manualmente e marcadas com a regra de normalização que deveria ser aplicada (por exemplo, números reais, símbolos, entre outros).
De acordo com os resultados, na versão 2 do normalizador, obtivemos discrepâncias estatisticamente significativas entre as regras. A regra dos ordinais apresenta a maior percentagem (94%) e as abreviaturas (43%) o menor percentual. Concluímos também um aumento significativo no desempenho de algumas das regras. Por exemplo, as abreviaturas mostram um desempenho de 23 pontos percentuais (pp.) superior. Quando comparamos as duas versões, concluímos que a versão 2 do normalizador apresenta, em média, uma taxa de erro 4 pp. menor sobre os tokens normalizáveis em comparação com a versão 1. Assim, o uso da regra dos ordinais (94% F1-score) e da regra dos números reais (89% F1-score) é a maior fonte de melhoria no normalizador. Além disso, em relação à precisão, a versão 2 apresenta uma melhoria de, em média, 28 pp em relação à versão 1. No geral, os resultados revelam inequivocamente uma melhoria da performance do normalizador em todas as regras aplicadas.
De acordo com os resultados do segundo projeto, o léxico fonético sueco alcançou um WER de 10%, enquanto o léxico fonético russo um WER ligeiramente inferior (11%). Os inventários fonético-fonológicos suecos apresentam uma precisão maior (97%) do que os inventários fonético-fonológicos russos (96%). No geral, o modelo sueco G2P apresenta um melhor desempenho (98%), embora a sua diferença ser menor quando comparado ao modelo russo (96%).
Em conclusão, os resultados obtidos tiveram um impacto significativo na pipeline de fala da empresa e nas arquiteturas de fala escrita (15% é a arquitetura de fala). Além disso, a versão 2 do normalizador começou a ser usada noutros projetos do Defined.ai, principalmente em coleções de prompts de fala. Observamos que nossa expansão e melhoria na ferramenta abrangeu expressões que compõem uma proporção considerável de expressões normalizáveis, não limitando a utilidade da ferramenta, mas aumentando a diversidade que ela pode oferecer ao entregar prompts, por exemplo.
Com base no trabalho desenvolvido, podemos observar que, ao ter uma abordagem baseada em regras para o Normalizador e o G2P, conseguimos aumentar a sua precisão e desempenho, representando não só uma vantagem significativa na melhoria das ferramentas da Defined.ai, como também nas arquiteturas de fala. Além disso, a nossa abordagem também foi aplicada a outras línguas obtendo resultados muito positivos e mostrando a importância da metodologia aplicada nesta tese. Desta forma, o nosso trabalho mostra a relevância e o valor acrescentado de aplicar conhecimento linguístico a modelos de pré-processamento.One of the most fast-growing and highly promising uses of natural language technology is in Speech Technologies. Such systems use automatic speech recognition (ASR) and text-to-speech (TTS) technology to provide a voice interface for conversational applications.
Speech technologies have progressively evolved to the point where they pay little attention to their linguistic structure. Indeed, linguistic knowledge can be extremely important in a speech pipeline, particularly in the Data Preprocessing phase: combining linguistic knowledge in a speech technology model allows producing more reliable and robust systems.
Given this background, this work describes the linguistic preprocessing methods in hybrid systems provided by an Artificial Intelligence (AI) international company, Defined.ai. The startup focuses on providing high-quality data, models, and AI tools. The main goal of this work is to enhance and advance the quality of preprocessing models by applying linguistic knowledge. Thus, we focus on two introductory linguistic models in a speech pipeline: Normalizer and Grapheme-to-Phoneme (G2P). To do so, two initiatives were conducted in collaboration with the Defined.ai Machine Learning team. The first project focuses on expanding and improving a pt-PT Normalizer model. The second project covers creating G2P models for two different languages – Swedish and Russian.
Results show that having a rule-based approach to the Normalizer and G2P increases its accuracy and performance, representing a significant advantage in improving Defined.ai tools and speech pipelines. Also, with the results obtained on the first project, we improved the normalizer in ease of use by increasing each rule with linguistic knowledge. Accordingly, our research demonstrates the added value of linguistic knowledge in preprocessing models
Negative vaccine voices in Swedish social media
Vaccinations are one of the most significant interventions to public health, but vaccine hesitancy creates concerns for a portion of the population in many countries, including Sweden. Since discussions on vaccine hesitancy are often taken on social networking sites, data from Swedish social media are used to study and quantify the sentiment among the discussants on the vaccination-or-not topic during phases of the COVID-19 pandemic. Out of all the posts analyzed a majority showed a stronger negative sentiment, prevailing throughout the whole of the examined period, with some spikes or jumps due to the occurrence of certain vaccine-related events distinguishable in the results. Sentiment analysis can be a valuable tool to track public opinions regarding the use, efficacy, safety, and importance of vaccination
- …