11 research outputs found

    CogBoost: Boosting for Fast Cost-Sensitive Graph Classification

    Full text link
    © 2015 IEEE. Graph classification has drawn great interests in recent years due to the increasing number of applications involving objects with complex structure relationships. To date, all existing graph classification algorithms assume, explicitly or implicitly, that misclassifying instances in different classes incurs an equal amount of cost (or risk), which is often not the case in real-life applications (where misclassifying a certain class of samples, such as diseased patients, is subject to more expensive costs than others). Although cost-sensitive learning has been extensively studied, all methods are based on data with instance-feature representation. Graphs, however, do not have features available for learning and the feature space of graph data is likely infinite and needs to be carefully explored in order to favor classes with a higher cost. In this paper, we propose, CogBoost, a fast cost-sensitive graph classification algorithm, which aims to minimize the misclassification costs (instead of the errors) and achieve fast learning speed for large scale graph data sets. To minimize the misclassification costs, CogBoost iteratively selects the most discriminative subgraph by considering costs of different classes, and then solves a linear programming problem in each iteration by using Bayes decision rule based optimal loss function. In addition, a cutting plane algorithm is derived to speed up the solving of linear programs for fast learning on large scale data sets. Experiments and comparisons on real-world large graph data sets demonstrate the effectiveness and the efficiency of our algorithm

    Class noise handling for effective cost-sensitive learning by cost-guided iterative classification filtering

    Full text link
    Recent research in machine learning, data mining, and related areas has produced a wide variety of algorithms for cost-sensitive (CS) classification, where instead of maximizing the classification accuracy, minimizing the misclassification cost becomes the objective. These methods often assume that their input is quality data without conflict or erroneous values, or the noise impact is trivial, which is seldom the case in real-world environments. In this paper, we propose a Cost-guided Iterative Classification Filter (CICF) to identify noise for effective CS learning. Instead of putting equal weights on handling noise in all classes in existing efforts, CICF puts more emphasis on expensive classes, which makes it attractive in dealing with data sets with a large cost-ratio. (Experimental results and comparative studies indicate that the existence of noise may seriously corrupt the performance of the underlying CS learners and by adopting the proposed CICF algorithm, we can significantly reduce the misclassification cost of a CS classifier in noisy environments. © 2006 IEEE

    Cost-sensitive online classification

    Get PDF
    Ministry of Education, Singapore under its Academic Research Funding Tier

    Cost-sensitive online classification

    Get PDF
    Ministry of Education, Singapore under its Academic Research Funding Tier

    Online Passive-Aggressive Active Learning

    Get PDF

    Data Mining Techniques to Understand Textual Data

    Get PDF
    More than ever, information delivery online and storage heavily rely on text. Billions of texts are produced every day in the form of documents, news, logs, search queries, ad keywords, tags, tweets, messenger conversations, social network posts, etc. Text understanding is a fundamental and essential task involving broad research topics, and contributes to many applications in the areas text summarization, search engine, recommendation systems, online advertising, conversational bot and so on. However, understanding text for computers is never a trivial task, especially for noisy and ambiguous text such as logs, search queries. This dissertation mainly focuses on textual understanding tasks derived from the two domains, i.e., disaster management and IT service management that mainly utilizing textual data as an information carrier. Improving situation awareness in disaster management and alleviating human efforts involved in IT service management dictates more intelligent and efficient solutions to understand the textual data acting as the main information carrier in the two domains. From the perspective of data mining, four directions are identified: (1) Intelligently generate a storyline summarizing the evolution of a hurricane from relevant online corpus; (2) Automatically recommending resolutions according to the textual symptom description in a ticket; (3) Gradually adapting the resolution recommendation system for time correlated features derived from text; (4) Efficiently learning distributed representation for short and lousy ticket symptom descriptions and resolutions. Provided with different types of textual data, data mining techniques proposed in those four research directions successfully address our tasks to understand and extract valuable knowledge from those textual data. My dissertation will address the research topics outlined above. Concretely, I will focus on designing and developing data mining methodologies to better understand textual information, including (1) a storyline generation method for efficient summarization of natural hurricanes based on crawled online corpus; (2) a recommendation framework for automated ticket resolution in IT service management; (3) an adaptive recommendation system on time-varying temporal correlated features derived from text; (4) a deep neural ranking model not only successfully recommending resolutions but also efficiently outputting distributed representation for ticket descriptions and resolutions

    Інтелектуальна медична система на основі нейронних мереж RESNET

    Get PDF
    Робота публікується згідно наказу ректора від 29.12.2020 р. №580/од "Про розміщення кваліфікаційних робіт вищої освіти в репозиторії НАУ". Керівник дипломної роботи: д.т.н., проф., завідувач кафедри авіаційних комп’ютерно-інтегрованих комплексів, Синєглазов Віктор МихайловичЗ технічним розвитком засобів автоматизації загострюється потреба у створенні сучасного медично - діагностичного обладнання, яке для лікаря є необхідним вимірювально-інформаційним інструментом отримання інформації про захворювання обстежуваного пацієнта з метою підтримки постановки діагнозу. Використовувані в цій сфері стандартні системи надають лікарю тільки первинну інформацію у вигляді фрагментів даних про досліджуваний орган, що є основою постановки діагностичного висновку. Його формування здійснюється лікарем суб'єктивно (шляхом різних методів когнітивної психології: сприйняття, уявлення, пізнання, розуміння, пояснення, формування рішення і т.п.) в рамках рекомендованих діагностичних мінімумів виявлення того чи іншого захворювання. Спільно з цим, лікар постійно виконує операції управління при жорстких обмеженнях часу на обстеження, це зв’язано з його специфіками, що створює додатковий дискомфорт пацієнту. Все це, а також наявність таких суб'єктивних факторів, як обсяг, інтенсивність, стійкість уваги лікаря, знижують якість проведення обстеження, збільшують його терміни, підвищують ймовірність формування помилкового висновку. Одним з напрямків підвищення ефективності діагностичного обстеження є включення до складу інструментальних засобів окремої комп'ютерної системи підтримки прийняття рішень, що дозволяє реалізувати частину операцій з серії психологічних перетворень, які виконуються лікарем. До них відносяться: виявлення діагностичних ознак захворювання і історії хвороби, облік даних попередніх обстежень, формування висновків за сукупністю знайдених патологій і ознак захворювань у вигляді діагнозу і ін. Автоматизація виконання цих операцій дозволить істотно знизити вплив на якість діагностичних висновків таких людських (суб'єктивних) факторів, як зменшення обсягу уваги, інтенсивності, стійкості тощо, так як ряд операцій з підтримки діагностичних висновків будуть передані машині. Проведений аналіз відомих методик і апаратури показав наступні особливості - як фактори, що впливають на достовірність діагностичного висновку
    corecore