414 research outputs found

    Feature Subset Selection in Intrusion Detection Using Soft Computing Techniques

    Get PDF
    Intrusions on computer network systems are major security issues these days. Therefore, it is of utmost importance to prevent such intrusions. The prevention of such intrusions is entirely dependent on their detection that is a main part of any security tool such as Intrusion Detection System (IDS), Intrusion Prevention System (IPS), Adaptive Security Alliance (ASA), checkpoints and firewalls. Therefore, accurate detection of network attack is imperative. A variety of intrusion detection approaches are available but the main problem is their performance, which can be enhanced by increasing the detection rates and reducing false positives. Such weaknesses of the existing techniques have motivated the research presented in this thesis. One of the weaknesses of the existing intrusion detection approaches is the usage of a raw dataset for classification but the classifier may get confused due to redundancy and hence may not classify correctly. To overcome this issue, Principal Component Analysis (PCA) has been employed to transform raw features into principal features space and select the features based on their sensitivity. The sensitivity is determined by the values of eigenvalues. The recent approaches use PCA to project features space to principal feature space and select features corresponding to the highest eigenvalues, but the features corresponding to the highest eigenvalues may not have the optimal sensitivity for the classifier due to ignoring many sensitive features. Instead of using traditional approach of selecting features with the highest eigenvalues such as PCA, this research applied a Genetic Algorithm (GA) to search the principal feature space that offers a subset of features with optimal sensitivity and the highest discriminatory power. Based on the selected features, the classification is performed. The Support Vector Machine (SVM) and Multilayer Perceptron (MLP) are used for classification purpose due to their proven ability in classification. This research work uses the Knowledge Discovery and Data mining (KDD) cup dataset, which is considered benchmark for evaluating security detection mechanisms. The performance of this approach was analyzed and compared with existing approaches. The results show that proposed method provides an optimal intrusion detection mechanism that outperforms the existing approaches and has the capability to minimize the number of features and maximize the detection rates

    Online signature verification algorithms and development of signature international standards

    Get PDF
    The science of biometrics is based on discovering the identities of human beings by investigating their physical and behavioural traits. Of the many different biometric traits, i.e. fingerprint, iris, vascular, etc... the handwritten signature is still one of the most accepted techniques. Advancing progress in identification applications has led to widespread demand for new generation ID documents, such as electronic passports and citizen cards, which contain additional biometric information required for more accurate user recognition. This can be achieved by embedding dynamic signature features within the documentation. However, this would result in two significant drawbacks that must be addressed, these are: Memory Capacity and Computational Load. These problems and the increasing demand for standardized biometric verifications systems have motivated the research work performed in this Thesis. In order to achieve this, an attempt to reduce the information involved in verification processes is performed using feature selection criteria of the signature biometric data. Such reduced information content not only satisfies the memory capacity restrictions but also provides much more efficient use of the verification algorithms. In particular, two novel methods in the signature context, based on Principal Component Analysis and Hellinger Distance, are proposed here. The performance of the optimized features set obtained has been analyzed using two different verification algorithms. By reducing the sample size it has been observed that the error rates are maintained sufficiently low and the results obtained are in agreement with the current state of the art for signature techniques. It will be shown that in some cases that feature selection does not provide an adequate reduction solution, where a different strategy has been analyzed to achieve the aforementioned problems. A direct consequence of the widespread nature of biometric verification has led to demands for standardized protocols to improve interoperability. The work presented throughout this Thesis has considered current ISO/IEC signature standard data formats. It has been observed that the current compact data formats, 19794-7 Compact Format and 19794-11, do not meet the requirements of modern data formats. In particular, 19794-7 Compact Format, although having good compression ratios, has been found to imply an inadmissible loss in information. This problem has been solved by defining a new near-lossless compression data format based on lossless compression algorithms, and proposing different enhanced strategies to store signature data. This new data format achieves the same compression ratio, but without losing any relevant information. In addition, the problems found in the 19794-11CD2 regarding the lack of compression and information loss have been addressed. A new data format structure has been proposed, where the lack of compression is solved by reducing the data stored, avoiding duplicated data and providing a new singular point definition. This new structure has provided improved compression ratios, and, at the same time, carries more information. The two new data format definitions were presented to the ISO/IEC SC37 WG3 experts and accepted as the new third subformat “Compression Format” within the 19794-7 and the new committee draft for the 197974-11 CD3. ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------En la sociedad actual existe la necesidad de verificar la identidad de usuarios de una manera automática y segura, sobre todo teniendo en cuenta las nuevas posibilidades que el comercio electrónico ha originado. Desgraciadamente todas estas nuevas posibilidades electrónicas de acceso a distintos servicios, también han incrementado las probabilidades de actividades delictivas como la usurpación de identidad. La biometría ha demostrado ser una tecnología válida para la verificación de identidades, ya que ofrece un alto nivel de seguridad a la vez que resulta cómoda al usuario. De hecho su uso ya ha sido probado con éxito para tales fines en distintos contextos, siendo uno de los más comunes y conocidos su aplicación en la nueva generación de documentos de identidad electrónicos, tales como el Documento Nacional de Identidad Electrónico (DNIe) así como en los nuevos pasaportes electrónicos. Estas nuevas generaciones de documentos de identidad incorporan técnicas biométricas que permiten a los usuarios la autenticación de su identidad en procesos remotos. Junto con estas ventajas de la tecnología biométrica, la capacidad de almacenamiento y procesado de datos por parte de los nuevos documentos de identidad hace posible la incorporación de la información dinámica que posee la firma manuscrita. Esta información puede ser utilizada para la verificación de la identidad de los usuarios de una manera muy familiar, ya que el uso de la firma manuscrita para la verificación de identidades está muy extendido. No obstante, a la hora de incluir esta información dentro de este tipo de dispositivos, se deben tener en cuenta dos limitaciones significativas. En primer lugar, hay que examinar las necesidades de almacenamiento indispensables para guardar los datos obtenidos de la firma manuscrita capturada así como para el patrón del usuario. En segundo lugar, hay que considerarla baja potencia de cálculo de estos dispositivos a la hora de desarrollar algoritmos de verificación. Del mismo modo, se debe tener en cuenta que los documentos de identidad se diseñan para ser usados en una gran variedad de escenarios, tanto a nivel nacional como internacional. Por esta razón el uso de normas internacionales que garanticen su interoperabilidad se hace un requisito indispensable. Partiendo de lo expuesto anteriormente, la presente Tesis Doctoral se ha centrado en mejorar la viabilidad de sistemas automáticos de verificación de firma dinámica manuscrita en entornos con fuertes limitaciones tanto en capacidad de almacenamiento de datos como en capacidad de computación. A su vez, se ha llevado a cabo un análisis exhaustivo de los actuales formatos de datos definidos en las norma internacional “19794 Biometric data interchange formats” existentes para firma manuscrita dinámica (parte 7 y 11 de esta norma), para contrastar como pueden llegar a afectar dichos formatos al rendimiento de los algoritmos de verificación. Los aspectos anteriormente indicados sobre las necesidades de almacenamiento y de computación han sido abordados a través de técnicas de selección de características probadas en dos implementaciones de algoritmos de verificación de firma basados en Modelado de Mezcla de Gausianas (designado por sus siglas en inglés “GMM”) y Alineamiento Dinámico Temporal (designado por sus siglas en inglés “DTW”). En concreto, las técnicas de selección de características empleadas han sido el Ratio de Fisher (cuyas siglas en inglés son FR), el Análisis de Componentes Principales (cuyas siglas en inglés son PCA), la combinación de ambas y por último, la distancia de Hellinger (cuyas siglas en inglés son HD). La primera de ellas es una técnica muy extendida en la literatura de firma manuscrita, mientras que las otros dos, PCA y HD, no se ha encontrado ninguna constancia de haber sido utilizada anteriormente en entornos de firma manuscrita. Los resultados han desvelado que la técnica PCA genera una selección de características más óptima que la técnica FR, mejorando las tasas de error de los algoritmos utilizados. Además, la combinación de esta técnica (PCA) con la técnica FR ha obtenido mejores resultados que aplicadas de manera individual. Por su parte, HD también ha demostrado su utilidad en el ámbito de la firma manuscrita dinámica, obteniendo mejores resultados que las técnicas expuestas anteriormente sobre todo en el caso del algoritmo DTW en el que el solapamiento de distribuciones de las características entre firmas genuinas y las firmas falsas es bajo. A la vista de estos resultados, con las técnicas de selección de características propuestas se ha logrado cumplir con los objetivos de reducir las necesidades tanto de espacio de almacenamiento como de capacidad computacional, manteniendo tasas de error acordes con el estado del arte. Cabe destacar que para el algoritmo GMM desarrollado se han propuesto dos vectores de características, uno formado por 28 elementos y otro de tan solo 13 elementos para entornos con limitaciones más extremas. A su vez, el algoritmo GMM implementado también ha demostrado ser robusto frente al número de funciones Gausianas que lo forman, obteniendo resultados en línea con el estado del arte para combinaciones de sólo cuatro funciones Gausianas. Estos dos resultados (el bajo número de elementos en el vector de características y el bajo número de funciones Gausianas) conllevan que tanto el modelo de usuario, como las firmas capturadas, requieran un mínimo espacio de almacenamiento. Del mismo modo, hacen que la carga computacional sea mucho menor que la de los algoritmos basados en GMM publicados con anterioridad. Con respecto al algoritmo DTW planteado, se ha propuesto un vector de características formado tan solo por seis elementos, obteniendo de nuevo bajas tasas de error tanto para falsificaciones aleatorias, como, especialmente, para falsificaciones entrenadas. Estos resultados una vez más muestran que las técnicas de selección de características han respondido satisfactoriamente. Pero a pesar de que el número de elementos del vector de características es muy bajo, no se han podido reducir las necesidades ni de espacio, ni de complejidad de cálculo, dado que para el algoritmo DTW todavía se incluye información de la presión. Sin embargo, estos objetivos han sido cubiertos mediante el análisis efectuado en relación con el número de puntos que se requieren para el almacenamiento tanto de las firmas capturas como para el del patrón de usuario. Las pruebas realizadas han puesto de manifiesto que submuestreando las firmas capturadas de manera que estén formadas sólo por 256 puntos, es suficiente para asegurar que los niveles de error obtenidos por los algoritmos se mantengan en niveles dentro del estado del arte de los algoritmos DTW. Incluso, bajando el número de puntos hasta la cifra de 128 se ha visto que aún se consiguen tasas de error aceptables. Además del estudio a nivel algorítmico de la viabilidad de implementación de algoritmos de firma manuscrita dinámica, esta Tesis Doctoral se ha también se ha enfocado en la mejora de las actuales normas internacionales de formato de datos existentes para firma manuscrita dinámica, teniendo por objetivo incrementar sus posibilidades de uso en dispositivos tales como documentos de identidad. Inicialmente, se ha realizado un estudio de la viabilidad del uso de estas normas internacionales (proyectos 19794-7 y 19794-11 del subcomité SC37 dentro de la organización ISO/IEC) en cuanto a tamaño de la muestra examinando varias bases de datos públicas de firma dinámica. De este análisis se ha concluido que el formato compacto definido en el proyecto 19794-7 presenta un ratio de compresión del 56% comparado con el formato completo. Por otro lado, el proyecto 19794-11 que se definía como un formato de compresión de datos para firma manuscrita, presentó ratios de compresión negativos, indicando que en lugar de tener un menor tamaño de muestra, este formato incrementa el tamaño en comparación con las firmas almacenadas siguiendo el formato completo 19794-7. A su vez, se ha mostrado como la compresión de datos, tanto en el formato compacto 19794-7 como en el formato 19794-11, tiene un impacto en el rendimiento de los algoritmos, incrementando sus tasas de error. Esto es debido a la información que se pierde en el proceso de compresión de los datos. Para resolver la perdida de rendimiento de los algoritmos cuando se usa el formato de datos compacto definido dentro del proyecto 19794-7, se han presentado dos nuevos formatos de datos. Estos formatos , denominados formatos de datos comprimidos, se basan en algoritmos de compresión de datos sin pérdida de información. Se ha llevado a cabo la evaluación de distintos algoritmos de estas características, así como distintas opciones de reordenación de los datos de la firma manuscrita para maximizar la compresión obtenida gracias a los algoritmos de compresión. Dentro de los formatos de datos sugeridos, se ha planteado un formato de datos comprimido que presenta los mismos ratios de compresión que el formato compacto 19794-7, pero sin incurrir en ninguna pérdida de datos, por lo que no presenta ningún impacto en las tasas de error de los algoritmos de verificación. Asimismo, también se ha propuesto un formato de datos comprimido con mínima perdida de información, mejorando las tasas de compresión, sin influir de nuevo en el rendimiento de los algoritmos de verificación. Este formato comprimido de datos con reducidas pérdidas tiene además la capacidad de ajustar el nivel de información perdida, lo que resulta una importante característica teniendo en cuenta las espectaculares resoluciones (tanto espaciales como temporales) que los dispositivos de captura presentan en la actualidad. Estas altas resoluciones conllevan un aumento importante en el tamaño de las muestras capturas, que puede ser minimizado con el uso de este formato comprimido con pérdidas. Ambos formatos de datos comprimidos, con y sin perdidas, fueron presentados a la comunidad internacional dentro del subcomité ISO/IEC SC37, proponiendo su inclusión en el proyecto 19794-7. Esta petición fue aceptada por los expertos internacionales de firma manuscrita, convirtiéndose el formato de datos comprimidos en el tercer subformato dentro de esta norma internacional. La publicación de esta norma con la inclusión de las contribuciones mencionadas está planificada para el año 2012. Con respecto al proyecto 19794-11CD2, se analizó el uso de una nueva estructura de datos que solucionara los problemas de la falta de compresión a través de la eliminación de información duplicada, almacenando menos datos y redefiniendo los puntos singulares en los que está basada la segmentación. Además, para aumentar aún más las tasas de compresión obtenidas, diferentes estrategias de eliminación de puntos espurios fueron tratadas. A su vez, para mejorar la calidad de la información almacenada dentro de este formato de datos, se ha estudiado la posibilidad de recrear los datos contenidos en el formato completo partiendo de los datos almacenados en esta parte 19794-11. Mediante estos análisis, se han obtenido tasas de compresión menores que los presentados por el formato compacto 19794-7. Esta nueva definición para el proyecto 19794-11 también se presentó al subcomité SC37, siendo igualmente aceptada por los expertos internacionales en firma manuscrita y adoptada en la nueva revisión del proyecto 19794-11CD3. La publicación de este proyecto como norma internacional se espera para 2013

    Automatic Signature Verification: The State of the Art

    Full text link

    Feature Subset Selection in Intrusion Detection Using Soft Computing Techniques

    Get PDF
    Intrusions on computer network systems are major security issues these days. Therefore, it is of utmost importance to prevent such intrusions. The prevention of such intrusions is entirely dependent on their detection that is a main part of any security tool such as Intrusion Detection System (IDS), Intrusion Prevention System (IPS), Adaptive Security Alliance (ASA), checkpoints and firewalls. Therefore, accurate detection of network attack is imperative. A variety of intrusion detection approaches are available but the main problem is their performance, which can be enhanced by increasing the detection rates and reducing false positives. Such weaknesses of the existing techniques have motivated the research presented in this thesis. One of the weaknesses of the existing intrusion detection approaches is the usage of a raw dataset for classification but the classifier may get confused due to redundancy and hence may not classify correctly. To overcome this issue, Principal Component Analysis (PCA) has been employed to transform raw features into principal features space and select the features based on their sensitivity. The sensitivity is determined by the values of eigenvalues. The recent approaches use PCA to project features space to principal feature space and select features corresponding to the highest eigenvalues, but the features corresponding to the highest eigenvalues may not have the optimal sensitivity for the classifier due to ignoring many sensitive features. Instead of using traditional approach of selecting features with the highest eigenvalues such as PCA, this research applied a Genetic Algorithm (GA) to search the principal feature space that offers a subset of features with optimal sensitivity and the highest discriminatory power. Based on the selected features, the classification is performed. The Support Vector Machine (SVM) and Multilayer Perceptron (MLP) are used for classification purpose due to their proven ability in classification. This research work uses the Knowledge Discovery and Data mining (KDD) cup dataset, which is considered benchmark for evaluating security detection mechanisms. The performance of this approach was analyzed and compared with existing approaches. The results show that proposed method provides an optimal intrusion detection mechanism that outperforms the existing approaches and has the capability to minimize the number of features and maximize the detection rates

    The art of PCR assay development: data-driven multiplexing

    Get PDF
    The present thesis describes the discovery and application of a novel methodology, named Data-Driven Multiplexing, which uses artificial intelligence and conventional molecular instruments to develop rapid, scalable and cost-effective clinical diagnostic tests. Detection of genetic material from living organisms is a biologically engineered process where organic molecules interact with each other and with chemical components to generate a meaningful signal of the presence, quantity or quality of target nucleic acids. Nucleic acid detection, such as DNA or RNA detection, identifies a specific organism based on its genetic material. In particular, DNA amplification approaches, such as for antimicrobial resistance (AMR) or COVID-19 detection, are crucial for diagnosing and managing various infectious diseases. One of the most widely used methods is Polymerase Chain Reaction (PCR), which can detect the presence of nucleic acids rapidly and accurately. The unique interaction of the genetic material and synthetic short DNA sequences called primers enable this harmonious biological process. This thesis aims to bioinformatically modulate the interaction between primers and genetic material, enhancing the diagnostic capabilities of conventional PCR instruments by applying artificial intelligence processing to the resulting signals. To achieve the goal mentioned above, experiments and data from several conventional platforms, such as real-time and digital PCR, are used in this thesis, along with state-of-the-art and innovative algorithms for classification problems and final application in real-world clinical scenarios. This work exhibits a powerful technology to optimise the use of the data, conveying the following message: the better use of the data in clinical diagnostics enables higher throughput of conventional instruments without the need for hardware modification, maintaining the standard practice workflows. In Part I, a novel method to analyse amplification data is proposed. Using a state-of-the-art digital PCR instrument and multiplex PCR assays, we demonstrate the simultaneous detection of up to nine different nucleic acids in a single-well and single-channel format. This novel concept called Amplification Curve Analysis (ACA) leverages kinetic information encoded in the amplification curve to classify the biological nature of the target of interest. This method is applied to the novel design of PCR assays for multiple detections of AMR genes and further validated with clinical samples collected at Charing Cross Hospital, London, UK. The ACA showed a high classification accuracy of 99.28% among 253 clinical isolates when multiplexing. Similar performance is also demonstrated with isothermal amplification chemistries using synthetic DNA, showing a 99.9% of classification accuracy for detecting respiratory-related infectious pathogens. In Part II, two intelligent mathematical algorithms are proposed to solve two significant challenges when developing a Data-driven multiplex PCR assay. Chapter 7 illustrates the use of filtering algorithms to remove the presence of outliers in the amplification data. This demonstrates that the information contained in the kinetics of the reaction itself provides a novel way to remove non-specific and not efficient reactions. By extracting meaningful features and adding custom selection parameters to the amplification data, we increase the machine learning classifier performance of the ACA by 20% when outliers are removed. In Chapter 8, a patented algorithm called Smart-Plexer is presented. This allows the hybrid development of multiplex PCR assays by computing the optimal single primer set combination in a multiplex assay. The algorithm's effectiveness stands in using experimental laboratory data as input, avoiding heavy computation and unreliable predictions of the sigmoidal shape of PCR curves. The output of the Smart-Plexer is an optimal assay for the simultaneous detection of seven coronavirus-related pathogens in a single well, scoring an accuracy of 98.8% in identifying the seven targets correctly among 14 clinical samples. Moreover, Chapter 9 focuses on applying novel multiplex assays in point-of-care devices and developing a new strategy for improving clinical diagnostics. In summary, inspired by the emerging requirement for more accurate, cost-effective and higher throughput diagnostics, this thesis shows that coupling artificial intelligence with assay design pipelines is crucial to address current diagnostic challenges. This requires crossing different fields, such as bioinformatics, molecular biology and data science, to develop an optimal solution and hence to maximise the value of clinical tests for nucleic acid detection, leading to more precise patient treatment and easier management of infectious control.Open Acces

    On-Line Signature Verification Based on PCA (Principal Component Analysis) and MCA (Minor Component Analysis)

    No full text

    Pattern Recognition

    Get PDF
    A wealth of advanced pattern recognition algorithms are emerging from the interdiscipline between technologies of effective visual features and the human-brain cognition process. Effective visual features are made possible through the rapid developments in appropriate sensor equipments, novel filter designs, and viable information processing architectures. While the understanding of human-brain cognition process broadens the way in which the computer can perform pattern recognition tasks. The present book is intended to collect representative researches around the globe focusing on low-level vision, filter design, features and image descriptors, data mining and analysis, and biologically inspired algorithms. The 27 chapters coved in this book disclose recent advances and new ideas in promoting the techniques, technology and applications of pattern recognition

    Pertanika Journal of Science & Technology

    Get PDF
    corecore