3 research outputs found

    Malware Identification Technique and its Applications

    Get PDF
    随着互联网技术的发展和安全形势的变化,恶意软件的数量呈指数级增长,恶意软件的变种更是层出不穷,传统的鉴别方法已经不能及时有效的处理这种海量数据,这使得以客户端为战场的传统查杀与防御模式不能适应新的安全需求,各大安全厂商开始构建各自的“云安全“计划。在这种大背景下,研究恶意软件检测关键技术是非常必要的。针对恶意软件数量大、变化快、维度高与干扰多的问题,我们研究云计算环境下的软件行为鉴别技术,探讨海量软件样本数据挖掘新方法、事件序列簇类模式挖掘新模型和算法及在恶意软件鉴别中的应用,并构建面向云安全的恶意软件智能鉴别系统原型以及中文钓鱼网站检测系统架构。With the development of the Internet technology and the changes of the situation of Internet security,we witness exponential increase of the number of malicious software and their endless variants.Traditional detection methods cannot effectively and timely deal with such mass of malicious software data,making traditional anti-virus platform running on PC client cannot satisfy current security requirements any more,thus some major Internet security venders have been launching their 'cloud security' program.Under such background,it is urgent to develop some new effective and efficient techniques for malware detection.In this paper,we investigate malware detection techniques based on cloud computing,including mining massive software samples,and applying new clustering models/algorithms for event sequences into malware detection,to deal with the critical issues of malware as being of large amount,fast change,highdimension and noise-laden.Furthermore,we propose a prototype of intelligent malware detection system for cloud security.国家自然科学基金(面向软件行为鉴别的事件序列挖掘方法研究;NO.61175123);深圳市生物、互联网、新能源产业发展专项资金(NO.CXB201005250021A

    Contribution à l'analyse des séquences de protéines similarité, clustering et alignement

    Get PDF
    La prédiction des fonctions biologiques des protéines est primordiale en biologie cellulaire. On peut comprendre facilement tout l'enjeu de pouvoir différencier efficacement les protéines par leurs fonctions, quand on sait que ceci peut rendre possible la réparation des protéines anormales causants des maladies, ou du moins corriger ou améliorer leurs fonctions. Les méthodes expérimentales, basées sur la structure tridimensionnelle des protéines sont les plus fiables pour la prédiction des fonctions biologiques des protéines. Néanmoins, elles sont souvent coûteuses en temps et en ressources, et ne permettent pas de traiter de grands nombres de protéines. Il existe toutefois des algorithmes qui permettent aux biologistes d'arriver à de bons résultats de prédictions en utilisant des moyens beaucoup moins coûteux. Le plus souvent, ces algorithmes sont basés sur la similarité, le clustering, et l'alignement. Cependant, les algorithmes qui sont basés sur la similarité et le clustering utilisent souvent l'alignement des séquences et ne sont donc pas efficaces sur les protéines non alignables. Et lorsqu'ils ne sont pas basés sur l 'alignement, ces algorithmes utilisent souvent des approches qui ne tiennent pas compte de l'aspect biologique des séquences de protéines. D'autre part, l'efficacité des algorithmes d'alignements dépend souvent de la nature structurelle des protéines, ce qui rend difficile le choix de l'algorithme à utiliser quand la structure est inconnue. Par ailleurs, les algorithmes d'alignement ignorent les divergences entre les séquences à aligner, ce qui contraint souvent les biologistes à traiter manuellement les séquences à aligner, une tâche qui n'est pas toujours possible en pratique. Dans cette thèse nous présentons un ensemble de nouveaux algorithmes que nous avons conçus pour l'analyse des séquences de protéines. Dans le premier chapitre, nous présentons CLUSS, le premier algorithme de clustering capable de traiter des séquences de protéines non-alignables. Dans le deuxième chapitre, nous présentons CLUSS2 une version améliorée de CLUSS, capable de traiter de plus grands ensembles de protéines avec plus de de fonctions biologiques. Dans le troisième chapitre, nous présentons SCS, une nouvelle mesure de similarité capable de traiter efficacement non seulement les séquences de protéines mais aussi plusieurs types de séquences catégoriques. Dans le dernier chapitre, nous présentons ALIGNER, un algorithme d'alignement, efficace sur les séquences de protéines indépendamment de leurs types de structures. De plus, ALIGNER est capable de détecter automatiquement, parmi les protéines à aligner, les groupes de protéines dont l'alignement peut révéler d'importantes propriétés biochimiques structurelles et fonctionnelles, et cela sans faire appel à l'utilisateur

    A general measure of similarity for categorical sequences

    No full text
    National Natural Science Foundation of China; Natural Sciences and Engineering Research Council of CanadaMeasuring the similarity between categorical sequences is a fundamental process in many data mining applications. A key issue is extracting and making use of significant features hidden behind the chronological and structural dependencies found in these sequences. Almost all existing algorithms designed to perform this task are based on the matching of patterns in chronological order, but such sequences often have similar structural features in chronologically different order. In this paper we propose SCS, a novel, effective and domain-independent method for measuring the similarity between categorical sequences, based on an original pattern matching scheme that makes it possible to capture chronological and non-chronological dependencies. SCS captures significant patterns that represent the natural structure of sequences, and reduces the influence of those which are merely noise. It constitutes an effective approach to measuring the similarity between data in the form of categorical sequences, such as biological sequences, natural language texts, speech recognition data, certain types of network transactions, and retail transactions. To show its effectiveness, we have tested SCS extensively on a range of data sets from different application fields, and compared the results with those obtained by various mainstream algorithms. The results obtained show that SCS produces results that are often competitive with domain-specific similarity approaches
    corecore