6 research outputs found

    Generación de un procedimiento de búsqueda de outliers sobre campos alfanuméricos en logs de auditoria

    Get PDF
    El término "outlier" se puede definir como un dato que difiere de forma significativa de otros presentes en un conjunto de datos. Dentro de la auditoría de sistemas existen herramientas informáticas que un auditor puede utilizar para realizar algunas de sus tareas, como es el análisis de datos. Se reconocen varios trabajos que utilizan técnicas de minería de datos para dar soporte a las tareas de un auditor de sistemas que se relacionan con el análisis de bases de datos, no abundando aquellas que trabajan sobre datos de tipo alfanumérico. En este contexto, se presenta la generación de un procedimiento de búsqueda de outliers sobre datos alfanuméricos en logs de auditoría de un sistema, con el objetivo de constituir una herramienta para un auditor de sistemas. El procedimiento generado se valida a través de la experimentación realizada con bases de datos artificiales y reales, obteniendo resultados satisfactorios.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Comparación de la efectividad de procedimientos de la explotación de información para la identificación de outliers en bases de datos

    Get PDF
    La auditoría de sistemas tiene una función central en la prevención de riesgos relacionados con la tecnología de la información. En general se observa un escaso desarrollo de las técnicas de auditoría asistidas por computadora (TAACs). La Minería de Datos (MD) se aplica en forma incipiente y poco sistemática a tareas relacionadas con la auditoría de sistemas. El presente trabajo desarrolla el estado del arte en lo relacionado a las aplicaciones de la MD vinculada a la detección de datos anómalos, el desarrollo de procedimientos que permiten detectar campos anómalos en bases de datos y la experimentación de los procedimientos diseñados que permiten comprobar la eficacia de los mismos.Eje: Base de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    A taxonomy framework for unsupervised outlier detection techniques for multi-type data sets

    Get PDF
    The term "outlier" can generally be defined as an observation that is significantly different from the other values in a data set. The outliers may be instances of error or indicate events. The task of outlier detection aims at identifying such outliers in order to improve the analysis of data and further discover interesting and useful knowledge about unusual events within numerous applications domains. In this paper, we report on contemporary unsupervised outlier detection techniques for multiple types of data sets and provide a comprehensive taxonomy framework and two decision trees to select the most suitable technique based on data set. Furthermore, we highlight the advantages, disadvantages and performance issues of each class of outlier detection techniques under this taxonomy framework

    Equivalent Error Bars For Neural Network Classifiers Trained By Bayesian Inference

    No full text
    The topic of this paper is the problem of outlier detection for neural networks trained by Bayesian inference. I will show that marginalization is not a good method to get moderated probabilities for classes in outlying regions. The reason why marginalization fails to indicate outliers is analysed and an alternative measure, that is a more reliable indicator for outliers, is proposed. A simple artificial classification problem is used to visualize the differences. Finally both methods are used to classify a real world problem, where outlier detection is mandatory. 1 Introduction Neural networks are often used in safety-critical applications for regression or classification purpose. Since neural networks are unable to extrapolate into regions not covered by the training data (see [6]), one should not use their predictions in such regions. Consequently methods for outlier detection got a lot of attraction. Outliers may be detected by assigning a confidence measure to network decisions. ..

    Procedimientos de explotación de información para la identificación de datos faltantes, con ruido e inconsistentes

    Get PDF
    La información es uno de los activos más importantes que tienen las empresas y es necesario garantizar la gobernanza de la tecnología de la información, la calidad de las bases de datos es uno de los elementos fundamentales para lograr esa gobernanza. Un auditor de sistemas dará empleo a muchas técnicas, procesos y herramientas para identificar los datos faltantes, con ruido e inconsistentes en una base de datos, la minería de datos es uno de esos medio a través del cual el auditor puede analizar la información. Dada la enorme cantidad de información que contienen los sistemas software es que los auditores deben emplear procedimientos que automaticen la detección de datos anómalos. Varios algoritmos de minería de datos han sido utilizados en la detección de tuplas consideradas anómalas, el problema es que no se encuentran antecedentes de algoritmos o procedimientos que permitan detectar específicamente dentro de una tupla que campo es el que contiene valores anómalos, siendo esta detección de fundamental importancia en las grandes bases de datos ya que si no es necesario hacer esta tarea en forma manual, requiriendo tiempo y una capacitación especifica por parte del auditor. El objetivo de la tesis es establecer una taxonomía relacionada con los métodos, técnicas y algoritmos de detección de valores anómalos en bases de datos. Y diseñar y validar procedimientos de explotación de información que combinados entre sí permitan detectar los campos que tienen valores atípicos en bases de datos, para mejorar la calidad de los datos. Se detectan tres enfoques diferentes relacionados con la Minería de Datos para detectar datos anómalos, el enfoque no supervisado, el enfoque supervisado y el enfoque semi-supervisado. Esta tesis desarrolla cuatro procedimientos de explotación de información para detectar en forma automática que campo específicamente tiene valores que son considerados anómalos utilizando una metodología hibrida que combina algoritmos de distintos enfoques para realizar la tarea, estos cuatro procedimientos se relacionan con bases de datos numéricas con o sin atributos Target, bases de datos alfanuméricas sin atributo target y bases de datos alfanuméricas con atributos target. Se realizaron pruebas experimentales para validar los resultados utilizando bases de datos de laboratorio y bases de datos reales, demostrándose la eficacia de los procedimientos propuestos. La integración de distintos algoritmos no solo permiten detectar los campos considerados faltantes, con ruido e inconsistentes, sino que minimiza los posibles errores que pueda tener un algoritmo ante tan diversos e inciertos escenarios a los que debe enfrentarse la tarea de un auditor

    IMAGE UNDERSTANDING OF MOLAR PREGNANCY BASED ON ANOMALIES DETECTION

    Get PDF
    Cancer occurs when normal cells grow and multiply without normal control. As the cells multiply, they form an area of abnormal cells, known as a tumour. Many tumours exhibit abnormal chromosomal segregation at cell division. These anomalies play an important role in detecting molar pregnancy cancer. Molar pregnancy, also known as hydatidiform mole, can be categorised into partial (PHM) and complete (CHM) mole, persistent gestational trophoblastic and choriocarcinoma. Hydatidiform moles are most commonly found in women under the age of 17 or over the age of 35. Hydatidiform moles can be detected by morphological and histopathological examination. Even experienced pathologists cannot easily classify between complete and partial hydatidiform moles. However, the distinction between complete and partial hydatidiform moles is important in order to recommend the appropriate treatment method. Therefore, research into molar pregnancy image analysis and understanding is critical. The hypothesis of this research project is that an anomaly detection approach to analyse molar pregnancy images can improve image analysis and classification of normal PHM and CHM villi. The primary aim of this research project is to develop a novel method, based on anomaly detection, to identify and classify anomalous villi in molar pregnancy stained images. The novel method is developed to simulate expert pathologists’ approach in diagnosis of anomalous villi. The knowledge and heuristics elicited from two expert pathologists are combined with the morphological domain knowledge of molar pregnancy, to develop a heuristic multi-neural network architecture designed to classify the villi into their appropriated anomalous types. This study confirmed that a single feature cannot give enough discriminative power for villi classification. Whereas expert pathologists consider the size and shape before textural features, this thesis demonstrated that the textural feature has a higher discriminative power than size and shape. The first heuristic-based multi-neural network, which was based on 15 elicited features, achieved an improved average accuracy of 81.2%, compared to the traditional multi-layer perceptron (80.5%); however, the recall of CHM villi class was still low (64.3%). Two further textural features, which were elicited and added to the second heuristic-based multi-neural network, have improved the average accuracy from 81.2% to 86.1% and the recall of CHM villi class from 64.3% to 73.5%. The precision of the multi-neural network II has also increased from 82.7% to 89.5% for normal villi class, from 81.3% to 84.7% for PHM villi class and from 80.8% to 86% for CHM villi class. To support pathologists to visualise the results of the segmentation, a software tool, Hydatidiform Mole Analysis Tool (HYMAT), was developed compiling the morphological and pathological data for each villus analysis
    corecore