13 research outputs found

    Revisiting Binary Code Similarity Analysis using Interpretable Feature Engineering and Lessons Learned

    Full text link
    Binary code similarity analysis (BCSA) is widely used for diverse security applications such as plagiarism detection, software license violation detection, and vulnerability discovery. Despite the surging research interest in BCSA, it is significantly challenging to perform new research in this field for several reasons. First, most existing approaches focus only on the end results, namely, increasing the success rate of BCSA, by adopting uninterpretable machine learning. Moreover, they utilize their own benchmark sharing neither the source code nor the entire dataset. Finally, researchers often use different terminologies or even use the same technique without citing the previous literature properly, which makes it difficult to reproduce or extend previous work. To address these problems, we take a step back from the mainstream and contemplate fundamental research questions for BCSA. Why does a certain technique or a feature show better results than the others? Specifically, we conduct the first systematic study on the basic features used in BCSA by leveraging interpretable feature engineering on a large-scale benchmark. Our study reveals various useful insights on BCSA. For example, we show that a simple interpretable model with a few basic features can achieve a comparable result to that of recent deep learning-based approaches. Furthermore, we show that the way we compile binaries or the correctness of underlying binary analysis tools can significantly affect the performance of BCSA. Lastly, we make all our source code and benchmark public and suggest future directions in this field to help further research.Comment: 22 pages, under revision to Transactions on Software Engineering (July 2021

    Towards Least Privilege Principle: Limiting Unintended Accesses in Software Systems.

    Full text link
    Adhering to the least privilege principle involves ensuring that only legitimate subjects have access rights to objects. Sometimes, this is hard because of permission irrevocability, changing security requirements, infeasibility of access control mechanisms, and permission creeps. If subjects turn rogue, the accesses can be abused. This thesis examines three scenarios where accesses are commonly abused and lead to security issues, and proposes three systems, SEAL, DeGap, and Expose to detect and, where practical, eliminate unintended accesses. Firstly, we examine abuse of email addresses, whose leakages are irreversible. Also, users can only hope that businesses requiring their email addresses for validating affiliations do not misuse them. SEAL uses semi-private aliases, which permits gradual and selective controls while providing privacy for affiliation validations. Secondly, access control mechanisms may be ineffective as subject roles change and administrative oversights lead to permission gaps, which should be removed expeditiously. Identifying permission gaps can be hard since another reference point besides granted permissions is often unavailable. DeGap uses access logs to estimate the gaps while using a common logic for various system services. DeGap also recommends configuration changes towards reducing the gaps. Lastly, unintended software code re-use can lead to intellectual property theft and license violations. Determining whether an application uses a library can be difficult. Compiler optimizations, function inlining, and lack of symbols make using syntactic methods a challenge, while pure semantic analysis is slow. Given a library and a set of applications, Expose combines syntactic and semantic analysis to efficiently help identify applications that re-use the library.PhDComputer Science & EngineeringUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/99976/1/bengheng_1.pd

    Text detection and recognition in natural images using computer vision techniques

    Get PDF
    El reconocimiento de texto en imágenes reales ha centrado la atención de muchos investigadores en todo el mundo en los últimos años. El motivo es el incremento de productos de bajo coste como teléfonos móviles o Tablet PCs que incorporan dispositivos de captura de imágenes y altas capacidades de procesamiento. Con estos antecedentes, esta tesis presenta un método robusto para detectar, localizar y reconocer texto horizontal en imágenes diurnas tomadas en escenarios reales. El reto es complejo dada la enorme variabilidad de los textos existentes y de las condiciones de captura en entornos reales. Inicialmente se presenta una revisión de los principales trabajos de los últimos años en el campo del reconocimiento de texto en imágenes naturales. Seguidamente, se lleva a cabo un estudio de las características más adecuadas para describir texto respecto de objetos no correspondientes con texto. Típicamente, un sistema de reconocimiento de texto en imágenes está formado por dos grandes etapas. La primera consiste en detectar si existe texto en la imagen y de localizarlo con la mayor precisión posible, minimizando la cantidad de texto no detectado así como el número de falsos positivos. La segunda etapa consiste en reconocer el texto extraído. El método de detección aquí propuesto está basado en análisis de componentes conexos tras aplicar una segmentación que combina un método global como MSER con un método local, de forma que se mejoran las propuestas del estado del arte al segmentar texto incluso en situaciones complejas como imágenes borrosas o de muy baja resolución. El proceso de análisis de los componentes conexos extraídos se optimiza mediante algoritmos genéticos. Al contrario que otros sistemas, nosotros proponemos un método recursivo que permite restaurar aquellos objetos correspondientes con texto y que inicialmente son erróneamente descartados. De esta forma, se consigue mejorar en gran medida la fiabilidad de la detección. Aunque el método propuesto está basado en análisis de componentes conexos, en esta tesis se utiliza también la idea de los métodos basados en texturas para validar las áreas de texto detectadas. Por otro lado, nuestro método para reconocer texto se basa en identificar cada caracter y aplicar posteriormente un modelo de lenguaje para corregir las palabras mal reconocidas, al restringir la solución a un diccionario que contiene el conjunto de posibles términos. Se propone una nueva característica para reconocer los caracteres, a la que hemos dado el nombre de Direction Histogram (DH). Se basa en calcular el histograma de las direcciones del gradiente en los pixeles de borde. Esta característica se compara con otras del estado del arte y los resultados experimentales obtenidos sobre una base de datos compleja muestran que nuestra propuesta es adecuada ya que supera otros trabajos del estado del arte. Presentamos también un método de clasificación borrosa de letras basado en KNN, el cual permite separar caracteres erróneamente conectados durante la etapa de segmentación. El método de reconocimiento de texto propuesto no es solo capaz de reconocer palabras, sino también números y signos de puntuación. El reconocimiento de palabras se lleva a cabo mediante un modelo de lenguaje basado en inferencia probabilística y el British National Corpus, un completo diccionario del inglés británico moderno, si bien el algoritmo puede ser fácilmente adaptado para ser usado con cualquier otro diccionario. El modelo de lenguaje utiliza una modificación del algoritmo forward usando en Modelos Ocultos de Markov. Para comprobar el rendimiento del sistema propuesto, se han obtenido resultados experimentales con distintas bases de datos, las cuales incluyen imágenes en diferentes escenarios y situaciones. Estas bases de datos han sido usadas como banco de pruebas en la última década por la mayoría de investigadores en el área de reconocimiento de texto en imágenes naturales. Los resultados muestran que el sistema propuesto logra un rendimiento similar al del estado del arte en términos de localización, mientras que lo supera en términos de reconocimiento. Con objeto de mostrar la aplicabilidad del método propuesto en esta tesis, se presenta también un sistema de detección y reconocimiento de la información contenida en paneles de tráfico basado en el algoritmo desarrollado. El objetivo de esta aplicación es la creación automática de inventarios de paneles de tráfico de países o regiones que faciliten el mantenimiento de la señalización vertical de las carreteras, usando imágenes disponibles en el servicio Street View de Google. Se ha creado una base de datos para esta aplicación. Proponemos modelar los paneles de tráfico usando apariencia visual en lugar de las clásicas soluciones que utilizan bordes o características geométricas, con objeto de detectar aquellas imágenes en las que existen paneles de tráfico. Los resultados experimentales muestran la viabilidad del sistema propuesto

    Text detection and recognition in natural images using computer vision techniques

    Get PDF
    El reconocimiento de texto en imágenes reales ha centrado la atención de muchos investigadores en todo el mundo en los últimos años. El motivo es el incremento de productos de bajo coste como teléfonos móviles o Tablet PCs que incorporan dispositivos de captura de imágenes y altas capacidades de procesamiento. Con estos antecedentes, esta tesis presenta un método robusto para detectar, localizar y reconocer texto horizontal en imágenes diurnas tomadas en escenarios reales. El reto es complejo dada la enorme variabilidad de los textos existentes y de las condiciones de captura en entornos reales. Inicialmente se presenta una revisión de los principales trabajos de los últimos años en el campo del reconocimiento de texto en imágenes naturales. Seguidamente, se lleva a cabo un estudio de las características más adecuadas para describir texto respecto de objetos no correspondientes con texto. Típicamente, un sistema de reconocimiento de texto en imágenes está formado por dos grandes etapas. La primera consiste en detectar si existe texto en la imagen y de localizarlo con la mayor precisión posible, minimizando la cantidad de texto no detectado así como el número de falsos positivos. La segunda etapa consiste en reconocer el texto extraído. El método de detección aquí propuesto está basado en análisis de componentes conexos tras aplicar una segmentación que combina un método global como MSER con un método local, de forma que se mejoran las propuestas del estado del arte al segmentar texto incluso en situaciones complejas como imágenes borrosas o de muy baja resolución. El proceso de análisis de los componentes conexos extraídos se optimiza mediante algoritmos genéticos. Al contrario que otros sistemas, nosotros proponemos un método recursivo que permite restaurar aquellos objetos correspondientes con texto y que inicialmente son erróneamente descartados. De esta forma, se consigue mejorar en gran medida la fiabilidad de la detección. Aunque el método propuesto está basado en análisis de componentes conexos, en esta tesis se utiliza también la idea de los métodos basados en texturas para validar las áreas de texto detectadas. Por otro lado, nuestro método para reconocer texto se basa en identificar cada caracter y aplicar posteriormente un modelo de lenguaje para corregir las palabras mal reconocidas, al restringir la solución a un diccionario que contiene el conjunto de posibles términos. Se propone una nueva característica para reconocer los caracteres, a la que hemos dado el nombre de Direction Histogram (DH). Se basa en calcular el histograma de las direcciones del gradiente en los pixeles de borde. Esta característica se compara con otras del estado del arte y los resultados experimentales obtenidos sobre una base de datos compleja muestran que nuestra propuesta es adecuada ya que supera otros trabajos del estado del arte. Presentamos también un método de clasificación borrosa de letras basado en KNN, el cual permite separar caracteres erróneamente conectados durante la etapa de segmentación. El método de reconocimiento de texto propuesto no es solo capaz de reconocer palabras, sino también números y signos de puntuación. El reconocimiento de palabras se lleva a cabo mediante un modelo de lenguaje basado en inferencia probabilística y el British National Corpus, un completo diccionario del inglés británico moderno, si bien el algoritmo puede ser fácilmente adaptado para ser usado con cualquier otro diccionario. El modelo de lenguaje utiliza una modificación del algoritmo forward usando en Modelos Ocultos de Markov. Para comprobar el rendimiento del sistema propuesto, se han obtenido resultados experimentales con distintas bases de datos, las cuales incluyen imágenes en diferentes escenarios y situaciones. Estas bases de datos han sido usadas como banco de pruebas en la última década por la mayoría de investigadores en el área de reconocimiento de texto en imágenes naturales. Los resultados muestran que el sistema propuesto logra un rendimiento similar al del estado del arte en términos de localización, mientras que lo supera en términos de reconocimiento. Con objeto de mostrar la aplicabilidad del método propuesto en esta tesis, se presenta también un sistema de detección y reconocimiento de la información contenida en paneles de tráfico basado en el algoritmo desarrollado. El objetivo de esta aplicación es la creación automática de inventarios de paneles de tráfico de países o regiones que faciliten el mantenimiento de la señalización vertical de las carreteras, usando imágenes disponibles en el servicio Street View de Google. Se ha creado una base de datos para esta aplicación. Proponemos modelar los paneles de tráfico usando apariencia visual en lugar de las clásicas soluciones que utilizan bordes o características geométricas, con objeto de detectar aquellas imágenes en las que existen paneles de tráfico. Los resultados experimentales muestran la viabilidad del sistema propuesto

    The optimized grouping value for precise similarity comparison of dynamic birthmark

    No full text

    Quantifying the psychological properties of words

    Get PDF
    This thesis explores the psychological properties of words – the idea that words carry links to additional information beyond their dictionary meaning. It does so by presenting three distinct publications and an applied project, the Macroscope. The published research respectively covers: the modelling of language networks to explain lexical growth; the use of high dimensional vector representations of words to discuss language learning; and the collection of a normative dataset of single word humour ratings. The first publication outlines the use of network science in psycholinguistics. The methodology is discussed, providing clear guidelines on the application of networks when answering psychologically motivated questions. A selection of psychological studies is presented as a demonstration of use cases for networks in cognitive psychology. The second publication uses referent feature norms to represent words in a high dimensional vector space. A correlative link between referent distinctiveness and age of acquisition is proposed. The shape bias literature (the idea that children only pay attention to the shape of objects early on) is evaluated in relation to the findings. The third publication collects and shares a normative dataset of single word humour ratings. Descriptive properties of the dataset are outlined and the potential future use in the field of humour is discussed. Finally, the thesis presents the Macroscope, a collaborative project put together with Li Ying. The Macroscope is an online platform, allowing for easy analysis of the psychological properties of target words. The platform is showcased, and its full functionality is presented, including visualisation examples. Overall, the thesis aims to give researchers all that’s necessary to start working with psychological properties of words – the understanding of network science in psycholinguistics, high dimensional vector spaces, normative datasets and the applied use of all the above through the Macroscope

    Evolutionary Design of Search and Triage Interfaces for Large Document Sets

    Get PDF
    This dissertation is concerned with the design of visual interfaces for searching and triaging large document sets. Data proliferation has generated new and challenging information-based tasks across various domains. Yet, as the document sets of these tasks grow, it has become increasingly difficult for users to remain active participants in the information-seeking process, such as when searching and triaging large document sets. During information search, users seek to understand their document set, align domain knowledge, formulate effective queries, and use those queries to develop document set mappings which help generate encounters with valued documents. During information triage, users encounter the documents mapped by information search to judge relevance to information-seeking objectives. Yet, information search and triage can be challenging for users. Studies have found that when using traditional design strategies in tool interfaces for search and triage, users routinely struggle to understand the domain being searched, apply their expertise, communicate their objectives during query building, and assess the relevance of search results during information triage. Users must understand and apply domain- specific vocabulary when communicating information-seeking objectives. Yet, task vocabularies typically do not align with those of users, especially in tasks of complex domains. Ontologies can be valuable mediating resources for bridging between the vocabularies of users and tasks. They are created by domain experts to provide a standardized mapping of knowledge that can be leveraged both by computational- as well as human-facing systems. We believe that the activation of ontologies within user-facing interfaces has a potential to help users when searching and triaging large document sets, however more research is required

    Sistema imunitário comportamental: consequências cognitivas da contaminação

    Get PDF
    Infectious diseases have long been a threat to human life. As one potential solution to this adaptive problem, natural selection forged the “biological” immune system, which is responsible for recognizing and eliminating invading microorganisms within the body. In addition, a sort of “behavioral” immune system has evolved as well, which prompts specific affective, cognitive, and behavioral reactions in response to potential sources of disease, as a means of facilitating the avoidance of risky situations that could compromise our health. Anchored in an evolutionary framework, this project aimed to explore the cognitive mechanisms underpinning the latter system. The main focus was on the mnemonic consequences of contamination: Across seven studies, we examined if the human memory preferentially retains potentially contaminated items (as compared to non-contaminated items). In order to confirm the replicability and robustness of the effect, memory for contamination was tested in different cultural groups, using a variety of stimuli, encoding-contexts, and experimental designs. Collectively, our studies provided evidence of a mnemonic tuning for contamination – enhanced memory for contaminated items (vs. non-contaminated items) – adding to the accumulating evidence that our memory works in the service of maximizing our chances of survival and of reproduction, the driving wheels of evolution. Item-selection is a common issue that researchers face when conducting research in this topic. To overcome such issue, at the beginning of this project, a new database of stimuli to be used as material in some of the experiments was purposely developed. Norming information on several dimensions and in different countries was also collected turning this database of use to other researchers. Aiming to consider other cognitive functions potentially involved in the “behavioral” immune system, we also explored if contaminated items preferentially capture humans’ visual-attention by employing a letter-identification task. An attentional bias for contamination was observed, suggesting that attention also fulfills an adaptive function. Finally, the potential influence of some key individual variables on the strength of the mnemonic advantage for contamination was explored. Besides the theoretical contribution of this work to understanding the functioning of the “behavioral” immune system, our findings could be potentially useful for developing future public health programs aimed at promoting prophylactic behaviors and reduce infectious diseases, a leading cause of mortality worldwideAs doenças infeciosas têm representado uma verdadeira ameaça à vida humana. Em resposta a este problema adaptativo, desenvolveu-se o sistema imunitário "biológico", através de processos de seleção natural, o qual é responsável por detetar e eliminar microorganismos invasores. Adicionalmente, desenvolveu-se o sistema imunitário “comportamental”, o qual induz processos afetivos, cognitivos e comportamentais em resposta a potenciais fontes de doença, de modo a facilitar o evitamento de situações de risco que possam comprometer a nossa saúde. Ancorado numa perspectiva evolutiva, este projeto teve como objetivo explorar os mecanismos cognitivos subjacentes a este último sistema, tendo-se focado essencialmente nas consequências mnésicas da contaminação. Ao longo de sete estudos, examinámos se a memória humana retém preferencialmente itens potencialmente contaminados (comparativamente com itens não-contaminados). A fim de asseverar a replicabilidade e robustez do efeito, testámos a memória para a contaminação em diferentes grupos culturais, adotando paradigmas experimentais, veículos de doença e contextos de codificação diversos. Globalmente, os nossos estudos fornecem evidência de uma vantagem mnésica para a contaminação – melhor memória para itens contaminados (vs. itens não-contaminados) – contribuindo para a crescente constatação empírica de que a nossa memória funciona de modo a potenciar as nossas probabilidades de sobrevivência e/ou reprodução, as forças motrizes da evolução. Um problema comummente enfrentado por investigadores nesta área corresponde a preocupações inerentes à seleção dos itens. Para colmatar esta dificuldade, no início do presente projeto, desenvolvemos de raiz uma base de imagens, as quais foram utilizadas em algumas das experiências. Também foram recolhidos dados normativos em várias dimensões e em diferentes países para que esta possa constituir uma ferramenta de trabalho útil para outros investigadores Com vista à investigação do envolvimento de um outro processo cognitivo no sistema imunitário “comportamental”, explorámos se itens potencialmente contaminados captam a atenção visual, utilizando para o efeito uma tarefa de identificação de letras. Observámos um viés atencional para a contaminação, sugerindo que a atenção também cumpre uma função adaptativa. Finalmente, explorámos o efeito de algumas diferenças individuais na magnitude da vantagem mnésica para a contaminação. Além da contribuição teórica deste trabalho para a compreensão do funcionamento do sistema imunitário “comportamental”, os resultados obtidos serão potencialmente úteis no desenvolvimento de programas de saúde pública visando aumentar comportamentos de prevenção de doenças infeciosas, uma das principais causas de mortalidade no mundoPrograma Doutoral em Psicologi
    corecore