3 research outputs found

    Algorytmy uczenia si臋 relacji podobie艅stwa z wielowymiarowych zbior贸w danych

    Get PDF
    The notion of similarity plays an important role in machine learning and artificial intelligence. It is widely used in tasks related to a supervised classification, clustering, an outlier detection and planning. Moreover, in domains such as information retrieval or case-based reasoning, the concept of similarity is essential as it is used at every phase of the reasoning cycle. The similarity itself, however, is a very complex concept that slips out from formal definitions. A similarity of two objects can be different depending on a considered context. In many practical situations it is difficult even to evaluate the quality of similarity assessments without considering the task for which they were performed. Due to this fact the similarity should be learnt from data, specifically for the task at hand. In this dissertation a similarity model, called Rule-Based Similarity, is described and an algorithm for constructing this model from available data is proposed. The model utilizes notions from the rough set theory to derive a similarity function that allows to approximate the similarity relation in a given context. The construction of the model starts from the extraction of sets of higher-level features. Those features can be interpreted as important aspects of the similarity. Having defined such features it is possible to utilize the idea of Tversky鈥檚 feature contrast model in order to design an accurate and psychologically plausible similarity function for a given problem. Additionally, the dissertation shows two extensions of Rule-Based Similarity which are designed to efficiently deal with high dimensional data. They incorporate a broader array of similarity aspects into the model. In the first one it is done by constructing many heterogeneous sets of features from multiple decision reducts. To ensure their diversity, a randomized reduct computation heuristic is proposed. This approach is particularly well-suited for dealing with the few-objects-many-attributes problem, e.g. the analysis of DNA microarray data. A similar idea can be utilized in the text mining domain. The second of the proposed extensions serves this particular purpose. It uses a combination of a semantic indexing method and an information bireducts computation technique to represent texts by sets of meaningful concepts. The similarity function of the proposed model can be used to perform an accurate classification of previously unseen objects in a case-based fashion or to facilitate clustering of textual documents into semantically homogeneous groups. Experiments, whose results are also presented in the dissertation, show that the proposed models can successfully compete with the state-of-the-art algorithms.Poj臋cie podobie艅stwa pe艂ni istotn膮 rol臋 w dziedzinach uczenia maszynowego i sztucznej inteligencji. Jest ono powszechnie wykorzystywane w zadaniach dotycz膮cych nadzorowanej klasyfikacji, grupowania, wykrywania nietypowych obiekt贸w oraz planowania. Ponadto w dziedzinach takich jak wyszukiwanie informacji (ang. information retrieval) lub wnioskowanie na podstawie przyk艂ad贸w (ang. case-based reasoning) poj臋cie podobie艅stwa jest kluczowe ze wzgl臋du na jego obecno艣膰 na wszystkich etapach wyci膮gania wniosk贸w. Jednak偶e samo podobie艅stwo jest poj臋ciem niezwykle z艂o偶onym i wymyka si臋 pr贸bom 艣cis艂ego zdefiniowania. Stopie艅 podobie艅stwa mi臋dzy dwoma obiektami mo偶e by膰 r贸偶ny w zale偶no艣ci od kontekstu w jakim si臋 go rozpatruje. W praktyce trudno jest nawet oceni膰 jako艣膰 otrzymanych stopni podobie艅stwa bez odwo艂ania si臋 do zadania, kt贸remu maj膮 s艂u偶y膰. Z tego w艂a艣nie powodu modele oceniaj膮ce podobie艅stwo powinny by膰 wyuczane na podstawie danych, specjalnie na potrzeby realizacji konkretnego zadania. W niniejszej rozprawie opisano model podobie艅stwa zwany Regu艂owym Modelem Podobie艅stwa (ang. Rule-Based Similarity) oraz zaproponowano algorytm tworzenia tego modelu na podstawie danych. Wykorzystuje on elementy teorii zbior贸w przybli偶onych do konstruowania funkcji podobie艅stwa pozwalaj膮cej aproksymowa膰 podobie艅stwo w zadanym kontek艣cie. Konstrukcja ta rozpoczyna si臋 od wykrywania zbior贸w wysokopoziomowych cech obiekt贸w. Mog膮 by膰 one interpretowane jako istotne aspekty podobie艅stwa. Maj膮c zdefiniowane tego typu cechy mo偶liwe jest wykorzystanie idei modelu kontrastu cech Tversky鈥檈go (ang. feature contrast model) do budowy precyzyjnej oraz zgodnej z obserwacjami psycholog贸w funkcji podobie艅stwa dla rozwa偶anego problemu. Dodatkowo, niniejsza rozprawa zawiera opis dw贸ch rozszerze艅 Regu艂owego Modelu Podobie艅stwa przystosowanych do dzia艂ania na danych o bardzo wielu atrybutach. Staraj膮 si臋 one w艂膮czy膰 do modelu szerszy zakres aspekt贸w podobie艅stwa. W pierwszym z nich odbywa si臋 to poprzez konstruowanie wielu zbior贸w cech z redukt贸w decyzyjnych. Aby zapewni膰 ich zr贸偶nicowanie, zaproponowano algorytm 艂膮cz膮cy heurystyk臋 zach艂anna z elementami losowymi. Podej艣cie to jest szczeg贸lnie wskazane dla zada艅 zwi膮zanych z problemem ma艂ej liczby obiekt贸w i du偶ej liczby cech (ang. the few-objects-many-attributes problem), np. analizy danych mikromacierzowych. Podobny pomys艂 mo偶e by膰 r贸wnie偶 wykorzystany w dziedzinie analizy tekst贸w. Realizowany jest on przez drugie z proponowanych rozszerze艅 modelu. 艁膮czy ono metod臋 semantycznego indeksowania z algorytmem obliczania biredukt贸w informacyjnych, aby reprezentowa膰 teksty dobrze zdefiniowanymi poj臋ciami. Funkcja podobie艅stwa zaproponowanego modelu mo偶e by膰 wykorzystana do klasyfikacji nowych obiekt贸w oraz do 艂膮czenia dokument贸w tekstowych w semantycznie sp贸jne grupy. Eksperymenty, kt贸rych wyniki opisano w rozprawie, dowodz膮, ze zaproponowane modele mog膮 skutecznie konkurowa膰 nawet z powszechnie uznanymi rozwi膮zaniami

    Complexity Analysis of Electroencephalogram Dynamics in Patients with Parkinson鈥檚 Disease

    Get PDF

    Efficient Optimization of F

    Get PDF
    F-measure is one of the most commonly used performance metrics in classification, particularly when the classes are highly imbalanced. Direct optimization of this measure is often challenging, since no closed form solution exists. Current algorithms design the classifiers by using the approximations to the F-measure. These algorithms are not efficient and do not scale well to the large datasets. To fill the gap, in this paper, we propose a novel algorithm, which can efficiently optimize F-measure with cost-sensitive SVM. First of all, we present an explicit transformation from the optimization of F-measure to cost-sensitive SVM. Then we adopt bundle method to solve the inner optimization. For the problem where the existing bundle method may have the fluctuations in the primal objective during iterations, an additional line search procedure is involved, which can alleviate the fluctuations problem and make our algorithm more efficient. Empirical studies on the large-scale datasets demonstrate that our algorithm can provide significant speedups over current state-of-the-art F-measure based learners, while obtaining better (or comparable) precise solutions
    corecore