7 research outputs found

    A New Data Mining Scheme Using Artificial Neural Networks

    Get PDF
    Classification is one of the data mining problems receiving enormous attention in the database community. Although artificial neural networks (ANNs) have been successfully applied in a wide range of machine learning applications, they are however often regarded as black boxes, i.e., their predictions cannot be explained. To enhance the explanation of ANNs, a novel algorithm to extract symbolic rules from ANNs has been proposed in this paper. ANN methods have not been effectively utilized for data mining tasks because how the classifications were made is not explicitly stated as symbolic rules that are suitable for verification or interpretation by human experts. With the proposed approach, concise symbolic rules with high accuracy, that are easily explainable, can be extracted from the trained ANNs. Extracted rules are comparable with other methods in terms of number of rules, average number of conditions for a rule, and the accuracy. The effectiveness of the proposed approach is clearly demonstrated by the experimental results on a set of benchmark data mining classification problems

    Analysis of Modified Rule Extraction Algorithm and Internal Representation of Neural Network

    Get PDF
    Classification and Rule extraction is an important application of Artificial Neural Network. To extract fewer rules from multilayer feed forward neural network has been a research area. The internal representation of the network is augmented by a distance term to extract fewer rules from the feedforward neural network and experimented on five datasets. Understanding affect of different factors of the dataset and network on extraction of a number of rules from the network can reveal important pieces of information which may help researchers to enhance the rule extraction process. This work investigates the internal behavior of neural network in rule extraction process on five different dataset.Keywords: Rule extraction, Feed Forward Neural Network, Hidden units, Activation value, Hidden neurons

    Predicting the Health Impacts of Commuting Using EEG Signal Based on Intelligent Approach

    Get PDF
    Commuting to work is an everyday activity for many which can have a significant effect on our health. Commuting on regular basis can be a cause of chronic stress which is linked to poor mental health, high blood pressure, heart rate, and exhaustion. This research investigates the neurophysiological and psychological impact of commuting in real-time, by analyzing brain waves and applying machine learning. The participants were healthy volunteers with mean age of 30 years. Portable electroencephalogram (EEG) data were acquired as a measure of stress level. EEG data were acquired from each participant using non-invasive NeuroSky MindWave headset for 5 continuous activities during their commute to work. This approach allowed effects to be measured during and following the period of commuting. The results indicate that whether the duration of commute was low or large, when participants were in a calm or relaxed state the bio-signal alpha band exceeded beta band whereas beta band was higher than alpha band when participants were stressed due to their commute. Very promising results have been achieved with an accuracy of 97.5% using Feed-forward neural network. This work focuses on the development of an intelligent model that helps to predict the impact of commuting on participants. In addition, the result obtained from the Positive and Negative Affect Schedule also suggests that participants experience a considerable rise in stress after their commute. For modelling of cognitive and semantic processes underlying social behavior, the most of the recent research projects are still based on individuals, while our research focuses on approaches addressing groups as a complete cohort. This study recorded the experience of commuters with a special focus on the use and limitation of emerging computing technologies in telehealth sensors

    Encapsulation of Soft Computing Approaches within Itemset Mining a A Survey

    Get PDF
    Data Mining discovers patterns and trends by extracting knowledge from large databases. Soft Computing techniques such as fuzzy logic, neural networks, genetic algorithms, rough sets, etc. aims to reveal the tolerance for imprecision and uncertainty for achieving tractability, robustness and low-cost solutions. Fuzzy Logic and Rough sets are suitable for handling different types of uncertainty. Neural networks provide good learning and generalization. Genetic algorithms provide efficient search algorithms for selecting a model, from mixed media data. Data mining refers to information extraction while soft computing is used for information processing. For effective knowledge discovery from large databases, both Soft Computing and Data Mining can be merged. Association rule mining (ARM) and Itemset mining focus on finding most frequent item sets and corresponding association rules, extracting rare itemsets including temporal and fuzzy concepts in discovered patterns. This survey paper explores the usage of soft computing approaches in itemset utility mining

    Search for coherent gene modules that predict streptococcus pneumoniae strain invasiveness

    Get PDF
    Tese de mestrado em Bioquímica, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012O Streptococcus pneumoniae, também chamado pneumococcus, é uma bactéria grampositiva do subgrupo alfa-hemolítico do género Streptococcus. É um colonizador frequente do trato respiratório superior humano e embora possa ser encontrado em qualquer pessoa, tem maior prevalência em crianças e idosos. A colonização decorre tipicamente sem causar sintomas, mas pode por vezes culminar na invasão de outros tecidos e provocar doenças como pneumonia, meningite ou otite do ouvido médio. Sem tratamento, a infeção com pneumococcus tem uma taxa de mortalidade da ordem dos 30 por cento mas, atualmente, com o uso de antibióticos e vacinas, este número é muito mais reduzido. Contudo, a resistência a antibióticos tem vindo a ser reconhecida em pneumococcus e a vacinação, mais do que reduzir o número de doenças provocadas por pneumococcus, tem conduzido à substituição das estirpes que as originam. Por estes motivos, torna-se urgente entender o mecanismo de invasão e virulência do pneumococcus para que novas formas de combate a este patógeneo possam tomar forma. Como em muitos outros organismos que habitam meios de composição pouco variável, na maioria patógenos, o pneumococcus tem um genoma reduzido. O genoma apresenta grande plasticidade, variando cerca de 10 por cento entre estirpes e contem apenas 60 a 80 por cento de genes mantidos em todas as estirpes. A totalidade dos genes do pneumococcus, o pangenoma, é consideravelmente mais vasto que o genoma de qualquer estirpe e juntamente com a capacidade de trocar genes entre a própria espécie, ou por vezes com espécies próximas, confere a esta bactéria uma grande adaptabilidade e resposta rápida a mudanças no seu meio ambiente. A transferência de genes horizontal é de facto uma idiossincrasia do pneumococcus e é, por vezes, acompanhada pela indução de morte de células da mesma espécie para que estas libertem DNA. Este fenómeno, conhecido como fratricídio, acontece quando a célula entra num estado de competência, também chamado estado X. O segundo nome foi proposto por ser mais abrangente, evitando que o estado fosse apenas associado à competência. Neste estado, o perfil de transcrição da bactéria é globalmente alterado e além de expressar genes que promovem a competência, expressa também bacteriocinas tóxicas para as células vizinhas e proteínas que protegem a própria célula dessas bacteriocinas. A facilidade de incorporação de DNA de outras células contribui significativamente para a sobrevivência da bactéria. A resistência à penicilina, por exemplo, é conferida por genes que foram adquiridos de uma espécie próxima, o Streptococcus Mitis. A invasividade e virulência do pneumococcus varia de estirpe para estirpe e é função do conteúdo génico. A bactéria está especialmente adaptada para colonizar, visto passar a maior parte do tempo na nasofaringe e que o principal meio de transmissão ocorre por aerossol e quase exclusivamente durante a colonização. Embora não exista consenso sobre o motivo desta adaptação, é consensual que algumas estirpes são mais aptas para a invasão de outros tecidos e, consequentemente, causar doença. Entre os determinantes de virulência, o mais estudado é a cápsula polisacarídica ou serótipo. São conhecidos mais de 90 serótipos que diferem em estrutura e composição, mas apenas pouco mais de vinte estão associados a doença. A cápsula é um dos mais importantes mecanismos de defesa contra o sistema imunitário humano, já que, além de cobrir grande parte dos epítopos que seriam facilmente reconhecíveis, ainda inibe o sistema do complemento. Vários outros determinantes têm vindo a ser identificados mas o contexto genético tem sido descurado. Alguns dos genes associados com virulência numa estirpe, foram associados com colonização noutra, evidenciando a relevância das interações entre genes. A noção de que a invasividade pode ser conferida por interação entre genes complexifica tanto a busca de determinantes, como os próprios determinantes. É possível identificar determinantes de invasividade procurando diferenças entre grupos de estirpes invasivas e grupos de estirpes colonizadoras. Estas diferenças podem ocorrer em diferentes níveis como o conteúdo génico ou a sua expressão. Dada a grande variabilidade do genoma do pneumococcus, é expectável encontrar determinantes de invasividade ao nível do conteúdo génico. Estas diferenças podem ser detetadas em larga escala por ensaios de microarrays de Hibridação Genómica Comparativa. É importante notar que esta abordagem é observacional e que, portanto, os resultados permitem apenas estabelecer correlações e não relações de causa efeito. Em contrapartida, permite observar múltiplas interações com diferentes backgrounds genéticos e a interação entre diferentes determinantes. Desta maneira, esta abordagem encaixa-se no paradigma da biologia de sistemas, visto estudar não só os genes individualmente, mas antes em interação com os demais. A procura de determinantes que distingam estirpes invasivas de estirpes colonizadoras é um problema de classificação, uma área da aprendizagem supervisionada. Existem já muitos algoritmos desenhados para resolver este tipo de problema. Tipicamente, o sucesso destes algoritmos é avaliado pela sua capacidade de classificar corretamente as estirpes a partir dos seus genótipos. Entre outros, algoritmos como as redes neuronais são conhecidos por uma elevada exatidão de classificação. No entanto, o foco deste trabalho não é a exatidão de classificação mas antes a compreensão dos mecanismos que conduzem à invasividade. Grande parte dos algoritmos existentes resultam num conjunto de regras difíceis de interpretar e ainda mais de traduzir para um nível biológico, em especial se considerarmos que as estirpes invasivas podem ser um grupo heterogéneo com diferentes mecanismos de invasividade. Por este motivo, surgiu a necessidade de desenhar um novo algoritmo que foque primordialmente identificar determinantes de invasividade. A procura de determinantes que tenham em conta a interação de genes constitui um problema computacional acrescido. A busca de múltiplos genes, módulos de genes, que constituam um determinante transforma-se num problema combinatorial em que o número de possibilidades aumenta exponencialmente com o número de genes. Para evitar uma busca exaustiva de todas as combinações, o algoritmo usa informação sobre interações entre os genes que podem ser de cariz metabólico, regulatório, físico, entre outros, mas que podem ser facilmente descritas num formato comum – as redes. As redes têm a vantagem de expressarem facilmente padrões de interações complexos e de serem manipuláveis e pesquisáveis computacionalmente. Os dados usados neste trabalho resultam de um estudo de microarray de Hibridação Genómica Comparativa com 72 estirpes que usou como controlos as estirpes Tigr4, G54 e R6. Estas estirpes foram previamente classificadas como invasivas, neutras ou colonizadoras, de acordo com a frequência com que foram identificadas em indivíduos saudáveis ou em indivíduos portadores de doença. A presença ou ausência dos genes nas estirpes foi organizado numa matriz denominada matriz de presença génica. As estirpes neutras não foram incluídas na matriz por terem um cariz incerto. A classificação de uma estirpe como neutra pode dever-se tanto a motivos biológicos como à insuficiência de poder estatístico para a classificar como invasiva ou colonizadora. Não foi usada uma rede de interações de genes mas sim uma matriz de distância que avalia a coocorrência e a coinvasidade. A coocorrência é um parâmetro que avalia a frequência com que dois genes estão presentes individualmente comparativamente com a frequência com que estão presentes em conjunto. A coinvasidade é um parâmetro que avalia a semelhança de associação de cada um dos genes com a invasividade. Esta associação é medida usando um teste estatístico de Fisher. Juntos, estes parâmetros asseguram que dois genes com uma baixa distância são genes que coocorrem frequentemente e que têm uma associação com a invasividade semelhante. A matriz de distâncias é usada para criar módulos de genes que serão depois avaliados. Os módulos são criados a partir de um gene semente, ao qual são gradualmente adicionados mais genes. O gene adicionado é sempre o gene com menor distância ao gene semente. Os módulos de genes são inicialmente avaliados quanto à sua presença dos seus genes em estirpes invasivas e colonizadoras através de um teste de runs. Este teste avalia se a distribuição das presenças pelas classes de estirpes é significativa ou se pode ser considerada aleatória, caso em que o módulo é abandonado. De seguida é definido um número de genes, limite, acima do qual o módulo é considerado presente numa estirpe. Este limite é definido de forma a que o módulo esteja presente exclusivamente em estirpes invasivas. Se tal limite não existir o módulo é abandonado. Caso tenha sido possível estabelecer um limite, é avaliada a significância do mesmo. Para tal é usado um teste unilateral que calcula a probabilidade do limite ter sido fixado com um valor tão ou mais baixo. Caso o limite não tenha significância estatística de 0.05 o módulo é abandonado. Dado o método de formação dos módulos, é possível que nem todos os genes contribuam para a associação do módulo com a invasividade. Para eliminar essas situações é avaliada a associação individual de cada gene com as estirpes em que o módulo está presente usando um teste de Fisher. Os genes que não estiverem associados são eliminados do módulo. Após a remoção de genes o limite é recalculado e a sua significância é reavaliada. Terminado este passo, é selecionado apenas um módulo de entre os módulos criados a partir do mesmo gene semente. O módulo selecionado é aquele que for constituído pelo maior número de genes. Por fim realizou-se uma correção para testes múltiplos que estabeleceu a taxa de descobertas falsas em 5 por cento. Este passo eliminou todos os módulos com menos de 24 genes. De todo este processo resultaram 26 módulos significantes pelos padrões estatísticos exigidos e que estão presentes exclusivamente nas estirpes invasivas. Embora os módulos sejam distintos, existe grande sobreposição entre eles. É possível observar submódulos que surgem repetidos em vários módulos e que eram possivelmente módulos por si, tendo sido eliminados pela correção por testes múltiplos. Para cada módulo, observou-se que a presença dos seus genes está correlacionada com o rácio de probabilidade da invasividade das estirpes. Esta correlação observa-se mesmo para as estirpes neutras, ainda que estas não tenham sido usadas como input no algoritmo. Embora as classes invasiva e colonizadora tenham sido usadas pelo algoritmo, os dados dos seus rácios de probabilidade de invasividade não foram. Em conjunto, os módulos usam um total de 111 genes e, usados em conjunto, é possível encontrar uma correlação semelhante. A correlação dos módulos, individualmente e em conjunto, com os rácios de probabilidade de invasividade e com as estirpes neutras é um resultado positivo que suporta a relevância e autenticidade destes módulos como determinantes de invasividade. Os módulos são robustos contra pequenas alterações na matriz de presença de genes. A experiência de microarray a partir da qual os dados foram originados tem um erro inerente e esta alta robustez confere confiança na autenticidade dos resultados do algoritmo, mostrando que dificilmente são consequência de erros do microarray. A existência de um limite para definir presença de módulos, por oposição à exigência de presença de todos os genes em simultâneo, pode ser uma fonte de robustez contra perturbações nos perfis de presença dos genes. Não foi encontrado enriquecimento de funções entre os genes selecionados pelo algoritmo nem entre os módulos. O enriquecimento das funções foi avaliado usando a anotação do JCVI. Apesar de não se ter verificado enriquecimento funcional usando a anotação da base de dados do JCVI, alguns genes têm claramente relações funcionais. O nrdD codifica um ribozima que é ativado pelo nrdG. Os genes Argh e ArgG codificam enzimas que catalisam reações sequenciais que constituem uma via alternativa da síntese da arginina. O enzima manitol-1-fosfato desidrogenase (mTLD) utiliza como substrato o manitol-1-fosfato, que é o produto do transporte de manitol pelo sistema PTS (MTLA e mtlF). O RuvB tem a sua atividade como estimulador de recombinação facilitada pela presença da proteína de ligação de DNA de cadeia simples ssb. Um transportador ABC requer a presença de vários componentes que foram selecionados pelo algoritmo, tais como módulos de ligação ao ATP (ou NBDs) e permeases transmembrananares. A ação da aquaporina Z (aqpZ) tem levantado dúvidas na comunidade científica, já que a sua ação parece conduzir ao acumular de pressão de turgescência celular excessiva. O canal mecanosensível largo (MsCl) proporciona uma resposta eficaz para a pressão de turgescência e pode ser um contrapartida biológica da aqpZ. Poliaminas, como a espermidina e norespermidina, têm sido relatadas como possíveis substitutos da colina e são, por conseguinte, intervenientes importantes na estrutura da parede celular e possivelmente na ligação a proteínas que se ligam a colina. A maioria dos genes selecionados foi previamente associada com a invasão ou tem alguma conexão plausível com os mecanismos de invasão. Proteínas da cápsula e proteínas que ligam colina desempenham um papel importante na proteção contra as defesas do hospedeiro. São importantes na inibição da ação do sistema imunitário, nomeadamente pela remoção das proteínas do complemento, ou pela ligação ao fator H, que é um inibidor do complemento. Vários elementos genéticos móveis foram identificados dentro ou perto do locus dos genes da cápsula e tem sido relatado o impacto destes elementos na regulação da transcrição de vários genes desse locus. A invasão de novos tecidos requer uma adaptação rápida a um ambiente novo, tanto às suas propriedades físicas como à disponibilidade de nutrientes. Foram selecionados genes de resposta a mudanças da pressão osmótica que parecem mais dirigidos a uma resposta rápida a grandes alterações da pressão do que à regulação fina da pressão e são, portanto, de particular interesse na adaptação a novos meios. Genes de resposta anaeróbica como o nrdD e o seu ativador, nrdG, dificilmente são funcionais na nasofaringe, uma vez que são estritamente anaeróbicos. No interior do organismo humano contudo, a concentração de oxigénio é reduzida, uma vez que este está quase sempre ligado a moléculas biológicas como a hemoglobina. Nestas circunstâncias o nrdD pode ser crucial para manter as funções dos enzimas aeróbios equivalentes. A capacidade de utilizar diferentes fontes de energia e de carbono é de extrema importância para a invasividade de uma estirpe. O elevado número de transportadores de açúcar está relacionado com a capacidade das estirpes invasivas sobreviverem em meios de variadas composições. Na mesma lógica, alguns genes foram selecionados que codificam para enzimas do metabolismo de diferentes açúcares, aumentando também a adaptabilidade da estirpe a diferentes meios. Genes de proteólise estão provavelmente relacionadas com as necessidades nutricionais de aminoácidos. A síntese de proteínas é um processo constante em todas as bactérias e exige uma disponibilidade permanente de aminoácidos e tRNA. Foram selecionados genes de síntese de aminoácidos que proporcionam vias alternativas para a síntese de aminoácidos, utilizando substratos alternativos. O algoritmo também selecionou genes ligados à síntese e ligação de tRNA ao aminoácido correspondente. Estes enzimas não foram caracterizados em Streptococcus pneumoniae e é difícil prever a sua influência na síntese proteica. Por fim, a grande heterogeneidade dos genomas do pneumococcus advém da sua capacidade de recombinação. Alguns dos genes selecionados pelo algoritmo promovem a heterogeneidade do genoma, aumentando a recombinação com o DNA extracelular. Entre os genes selecionados é promovida a internalização de DNA, a sua estabilização e a recombinação com DNA não homólogo. O estado de competência do pneumococcus é acompanhado por uma apetência para induzir a apoptose em células vizinhas, aumentando a concentração de fragmentos de DNA no meio. Várias bacteriocinas foram associadas por este trabalho à invasividade, bem como genes que inibem a apoptose da própria célula. Esses genes dão à célula uma vantagem natural na competição com outros colonizadores. Em suma, alcançou-se o objetivo pretendido de encontrar determinantes de invasividade. Estes determinantes são fruto de um estudo observacional e é portanto de notar que a relação que têm com a invasividade é apenas de correlação. Para determinar o impacto que estes módulos de genes têm na invasividade é necessário realizar estudos laboratoriais que averiguem em maior detalhe a função biológica dos genes e a sua relação com os mecanismos de invasão.Streptococcus pneumonia is a pathogenic bacterium responsible for several human diseases, such as pneumonia, meningitis and sepsis. Any pneumococcal disease is preceded by an asymptomatic colonization stage in the human nasopharynx. The transition from colonization to invasion is known to depend on both human and pathogen factors. This work aims to computationally identify pneumococcal genetic factors that influence the likelihood of invasion events. For this purpose, we analyze microarray based comparative genomic hybridization data of 72 strains of pneumococcus. Each strain was classified as Invasive, Neutral or Colonizer according to a previous study that compared the frequencies with which strains were recovered from an asymptomatic carrier or from invasive disease episodes. We propose to select genes that, individually or in a coordinated way, affect the frequency of invasion transitions among all colonization events, which we denominate as invasiveness. To detect coordinated sets of genes, we developed a method that uses networks of known interactions between genes to find gene modules that predict invasiveness. Each module is founded with a single gene and then grown with its closest neighbors in the network. Each module is then evaluated for its predictive power, statistical significance and robustness to data variability. We tested the method with a network based on a distance score that integrates gene co‐occurrence and co‐invasiveness. Among others functions, the found modules implicate cell envelope, transport, sugar metabolism, osmotic response, aminoacid synthesis, spermidine synthesis and proteolysis functions in pneumococcal invasiveness

    An electromagnetic imaging system for metallic object detection and classification

    Get PDF
    PhD ThesisElectromagnetic imaging currently plays a vital role in various disciplines, from engineering to medical applications and is based upon the characteristics of electromagnetic fields and their interaction with the properties of materials. The detection and characterisation of metallic objects which pose a threat to safety is of great interest in relation to public and homeland security worldwide. Inspections are conducted under the prerequisite that is divested of all metallic objects. These inspection conditions are problematic in terms of the disruption of the movement of people and produce a soft target for terrorist attack. Thus, there is a need for a new generation of detection systems and information technologies which can provide an enhanced characterisation and discrimination capabilities. This thesis proposes an automatic metallic object detection and classification system. Two related topics have been addressed: to design and implement a new metallic object detection system; and to develop an appropriate signal processing algorithm to classify the targeted signatures. The new detection system uses an array of sensors in conjunction with pulsed excitation. The contributions of this research can be summarised as follows: (1) investigating the possibility of using magneto-resistance sensors for metallic object detection; (2) evaluating the proposed system by generating a database consisting of 12 real handguns with more than 20 objects used in daily life; (3) extracted features from the system outcomes using four feature categories referring to the objects’ shape, material composition, time-frequency signal analysis and transient pulse response; and (4) applying two classification methods to classify the objects into threats and non-threats, giving a successful classification rate of more than 92% using the feature combination and classification framework of the new system. The study concludes that novel magnetic field imaging system and their signal outputs can be used to detect, identify and classify metallic objects. In comparison with conventional induction-based walk-through metal detectors, the magneto-resistance sensor array-based system shows great potential for object identification and discrimination. This novel system design and signal processing achievement may be able to produce significant improvements in automatic threat object detection and classification applications.Iraqi Cultural Attaché, Londo

    Data Mining and Associated Analytical Tools as Decision Aids for Healthcare practitioners in Vascular Surgery

    Get PDF
    Vascular surgery is an increasingly data rich speciality. Planning treatment and assessing outcomes are highly dependent on objective assessment of number of imaging modalities including duplex ultrasound, CT scans and angiograms which are almost exclusively digitally created stored and accessed. Developments such as the national vascular registry mean that treatment outcomes are recorded scrutinised electronically. The widespread availability of data which is collected electronically and stored for future clinical use has created the opportunity to examine the efficacy of investigations and treatments in a way which has hitherto not been possible. In addition, new computational methods for data analysis have provided the opportunity for the clinicians and researchers to utilise this data to address pertinent clinical questions
    corecore