7 research outputs found

    Automatically tagging email by leveraging other users' folders

    Full text link
    Most email applications devote a significant part of their real estate to organization mechanisms such as folders. Yet, we verified on the Yahoo! Mail service that 70 % of email users have never defined a single folder. This implies that one of the most well known email features is underexploited. We propose here to revive the feature by providing a method for generating a lighter form of folders, or tags, benefiting even the most passive users. The method automatically asso-ciates, whenever possible, an appropriate semantic tag with a given email. This gives rise to an alternate mechanism for organizing and searching email. We advocate a novel modeling approach that exploits the overall population of users, thereby learning from the wisdom-of-crowds how to categorize messages. Given our massive user base, it is enough to learn from a minority of the users who label certain messages in order to label that kind of messages for the general population. We design a novel cas-cade classification approach, which copes with the severe scalability and accuracy constraints we are facing. Signifi-cant efficiency gains are achieved by working within a low dimensional latent space, and by using a novel hierarchical classifier. Precision level is controlled by separating the task into a two-phase classification process. We performed an extensive empirical study covering three different time periods, over 100 million messages, and thou-sands of candidate tags per message. The results are encour-aging and compare favorably with alternative approaches. Our method successfully tags 72 % of incoming email traf-fic. Performance-wise, the computational overhead, even on surge large traffic, is sufficiently low for our approach to be applicable in production on any large Web mail service. 1

    Effective Utilization of Supervised Learning Techniques for Process Model Matching

    Get PDF
    The recent attempts to use supervised learning techniques for process model matching have yielded below par performance. To address this issue, we have transformed the well-known benchmark correspondences to a readily usable format for supervised learning. Furthermore, we have performed several experiments using eight supervised learning techniques to establish that imbalance in the datasets is the key reason for the abysmal performance. Finally, we have used four data balancing techniques to generate balanced training dataset and verify our solution by repeating the experiments for the four datasets, including the three benchmark datasets. The results show that the proposed approach increases the matching performance significantly

    Learning techniques for automatic email message tagging

    Get PDF
    A organização automática de mensagens de correio electrónico é um desafio actual na área da aprendizagem automática. O número excessivo de mensagens afecta cada vez mais utilizadores, especialmente os que usam o correio electrónico como ferramenta de comunicação e trabalho. Esta tese aborda o problema da organização automática de mensagens de correio electrónico propondo uma solução que tem como objectivo a etiquetagem automática de mensagens. A etiquetagem automática é feita com recurso às pastas de correio electrónico anteriormente criadas pelos utilizadores, tratando-as como etiquetas, e à sugestão de múltiplas etiquetas para cada mensagem (top-N). São estudadas várias técnicas de aprendizagem e os vários campos que compõe uma mensagem de correio electrónico são analisados de forma a determinar a sua adequação como elementos de classificação. O foco deste trabalho recai sobre os campos textuais (o assunto e o corpo das mensagens), estudando-se diferentes formas de representação, selecção de características e algoritmos de classificação. É ainda efectuada a avaliação dos campos de participantes através de algoritmos de classificação que os representam usando o modelo vectorial ou como um grafo. Os vários campos são combinados para classificação utilizando a técnica de combinação de classificadores Votação por Maioria. Os testes são efectuados com um subconjunto de mensagens de correio electrónico da Enron e um conjunto de dados privados disponibilizados pelo Institute for Systems and Technologies of Information, Control and Communication (INSTICC). Estes conjuntos são analisados de forma a perceber as características dos dados. A avaliação do sistema é realizada através da percentagem de acerto dos classificadores. Os resultados obtidos apresentam melhorias significativas em comparação com os trabalhos relacionados.Automatic organization of email messages is still a challenge in machine learning. The problema of “email overload”, coined in 1998 by Whittaker et al, is presently affecting enterprise and power users. This thesis addresses automatic email organization by proposing a solution based on supervised learning algorithms that automatically labels email messages with tags. We approach tagging using previously created user-folders as tags and top-N ranking classifier output. Learning techniques are reviewed and the different fields of an email message are analyzed for their suitability for classification. Special attention is given to the textual fields (subject and body), by studying and testing different representations, different feature selection methods and several classification algorithms. The participant fields are analyzed and evaluated using classification algorithms that work with the vector-space model and a graph based representation. The diferente email fields are combined for classification using the classifier combination technique of Majority Voting. Experiments are done on a subset of the Enron Corpus and on a private data set from the Institute for Systems and Technologies of Information, Control and Communication (INSTICC). The data sets are extensively analyzed in order to understand the characteristics of the data. The evaluation of the system, using accuracy, shows great promise, with the experimental results presenting a significant improvement over related works

    Veri Madenciliği ile Üniversite Bilişim Teknik Servis Hizmetleri Analizi

    Get PDF
    Bu çalışmada Düzce Üniversitesi Teknik Servis Otomasyonu verileri üzerinde, birim personelinin performansını değerlendirmek ve yöneticiye karar destek sürecinde yardımcı olması için Veri Madenciliği (VM) bilimi kullanılmıştır. VM büyük ölçekli verilerden, anlamlı bilgi çıkarma veya geleceğe yönelik tahminlerde bulunma işi olarak adlandırılabilir. Sınıflandırma ise mevcut veriden geleceğe yönelik tahminlerde bulunma tekniğidir.  Kurumsal işletmelerde ve kamu kurumlarında personel performans analizi yapabilmek ve ileriye yönelik karar destek süreçlerinde kullanmak için çok sayıda veri bulunmaktadır. Ancak yöneticilerin bu verileri ham hali ile, performans süreçlerinde kullanmaları çok zordur. Bu çalışmada birim yöneticilerine, VM’nin sınıflandırma tekniği ile personelin performans değerlendirmesi ve karar destek sürecinde yardımcı olunması hedeflenmiştir. VM’nin sınıflandırma yöntemleri bu veriler üzerinde uygulanmış ve Derin Öğrenme yönteminin başarısı ortaya konulmuştur

    Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi

    Get PDF
    Veri madenciliği, insanın işleyebileceğinden çok miktarda veri üzerinde çalışabilen, bu verileri anlamlandırmak, örtük bağlantıları ortaya çıkarmak amacıyla uygulanan yöntemler bütünüdür. Örneğin, herhangi bir web sayfasının önceden tanımlanmış kategoriler arasından hangi kategoriye ait olduğunun bulunması el ile kolaylıkla yapılabilirken sayfaların sayısı arttıkça her bir sayfanın hangi kategoriye ait olduğunun bulunması imkansız hale gelmektedir. Bu nedenle otomatik sınıflandırma tekniklerinin kullanımı gittikçe daha fazla önem kazanmaktadır. Web sayfalarının sınıflandırılmasından yola çıkılarak oluşturulan veriseti ile eğitilen bir sistemde yalnızca web sayfaları için değil metin tabanlı herhangi bir dokümanın da kategorisinin belirlenme işlemi yapılabilir. Böylece anlamsız bir şekilde bir arada bulunan veri yığınları, içeriklerine uygun kategorilere ayrılmış bir katalog haline getirilebilir. Literatürde Türkçe web sayfalarının sınıflandırılmasıyla ilgili yapılan çalışmaların sayısı azdır. Aynı zamanda bu çalışmalar için kullanılabilecek hazır durumdaki verisetlerinin sayısı ve çeşitliliği kısıtlıdır. Bu tez çalışmasıyla hem Türkçe veriseti ihtiyacına cevap verebilmek hedeflenmiş, hem de literatürdeki metin sınıflandırma için kullanılan çeşitli yöntemler bu veriseti üzerinde denenmiştir. Bu algoritmaların çeşitli durumlardaki performansları kıyaslanarak bu alandaki çalışmalara katkı sağlamaya çalışılmıştır. Veriseti oluşturulurken el ile kategorize edilmiş web sayfalarının tutulduğu DMOZ sisteminden faydalanılmıştır. Buradan Türkçe sayfa verilerini çok kanallı yöntemle çekebilen bir web-gezer tasarlanmıştır. Elde edilen sayfa içeriklerinden sınıflandırma için anlamsız olan veriler otomatik olarak temizlenmiştir ve böylece bir Türkçe veriseti elde edilmiştir. Oluşturulan veriseti üzerinde yapılan ön işlem aşaması sırasında ya da sonrasında, kelime ekleme veya çıkarma gibi hiçbir müdahalede bulunulmamıştır. Elde edilen veriseti benzer çalışmalara kaynak sağlayabilecek niteliktedir. Bu çalışma kapsamında metin sınıflandırma için sıkça kullanılan Naive Bayes (NB) ve Destek Vektör Makineleri (DVM - Support Vector Machines) algoritmalarına n-gram kelime vektörü (n-gram Word Vector) seçimi ve bilgi kazanım oranı (BKO - Information Gain Ratio) yaklaşımları uygulanarak performansları karşılaştırılmıştır. Bunların yanında kategori sayısı, modeli eğitmek için kullanılan veriseti içeriği ve bu verisetinin tamlığı konularına da odaklanılmış ve farklı durumlarda algoritmaların sınıflandırma başarıları da incelenmiştir. Deneyler sonucunda kategori sayısının azlığı sınıflandırma başarısını olumlu etkilemiştir. Eğitim verilerindeki web sayfalarının başlık, anahtar kelime ve açıklama yönünden eksiksiz olmasının sınıflandırma başarısına DMOZ verilerinden daha fazla katkı sağladığı görülmüştür. Dengesiz dağılım gösteren verisetleri üzerinde yapılan deneylerde en yüksek başarıyı gösteren ve değişimlerden en az etkilenen algoritmanın Multinomial Naive Bayes (M-NB) olduğu görülmüştür. M-NB algoritması kelime 2-gram özellik vektöründe daha yüksek sonuçlara ulaşmıştır. Buna rağmen BKO yaklaşımının M-NB algoritmasına önemli bir katkı sağlamadığı görülürken DVM algoritmasına, M-NB algoritmasına oranla daha fazla katkı sağladığı gözlenmiştir.Data mining can be described as a collection of the methods that are able to work on large-scale data, extract meaningful information and discover hidden patterns from the data. For example, identifying the category of a given web page is a data mining job. Although it seems to be quite easy job to determine the category of a given web page manually; it happens to be impossible to do by hand as the number of these web pages increases. Nowadays, the use of data mining techniques to automatically place web pages into predefined categories has become more important. Additionally, a system that has been trained to classify web pages using a given text dataset can also be used to classify all other text documents. Classification can convert piles of text data into categorized documents. As far as we are aware, there are only a few studies in the literature in which text classification methods have been applied on Turkish text data. In addition, there is lack of proper Turkish dataset in the literature. Therefore, in this study, we decided to address both of these needs by first generating a Turkish corpus for text classification and then by testing some algorithms using this Turkish corpus. A comparison of these algorithms under different configurations have also been presented to contribute other works on this subject. DMOZ data, which is the most extensive human-made data source consisting of pre-classified web pages, is decided to use. A web-crawler that brings only Turkish pages along with their classes is designed. After cleaning redundant information for classification task on these web pages automatically, a Turkish corpus is obtained. During or after the cleaning phase, there has been no manual intervention such as removing or adding some words. The obtained dataset is in such a high quality that it can be used as a test bed for other studies, as well. In this study, the performance of Naive Bayes and Support Vector Machines algorithms, which are among the most frequently used algorithms for text classification have been compared. Selection of n-gram word vector and information gain ratio approach have also been considered. Moreover, it has been focused on the number of categories, the content of data used to train the model and the completeness of this data, and also the effects of these on classification success are examined. The results show that the performance of both algorithms increase significantly when instances with small number of categories are used. Also, the quality of the content such as including title, keywords and description completely provided to be another factor that affects the classification performance more than the DMOZ data. When the algorithms are trained with instances that are composed of web pages with no missing information such as the web site title and meta data their performance is again, seem to be better. The results show that Multinominal Naive Bayes algorithm is more robust when compared to Support Vector Machines method. In addition, it has been shown that the performance of Multinomial Naive Bayes can further be improved by using 2- gram word vectors. The inclusion of Information Gain Ratio did not seem to improve the performance of Naive Bayes, however it did affect the performance of Support Vector Machines in the positive way

    Quantitative Assessment of Factors in Sentiment Analysis

    Get PDF
    Sentiment can be defined as a tendency to experience certain emotions in relation to a particular object or person. Sentiment may be expressed in writing, in which case determining that sentiment algorithmically is known as sentiment analysis. Sentiment analysis is often applied to Internet texts such as product reviews, websites, blogs, or tweets, where automatically determining published feeling towards a product, or service is very useful to marketers or opinion analysts. The main goal of sentiment analysis is to identify the polarity of natural language text. This thesis sets out to examine quantitatively the factors that have an effect on sentiment analysis. The factors that are commonly used in sentiment analysis are text features, sentiment lexica or resources, and the machine learning algorithms employed. The main aim of this thesis is to investigate systematically the interaction between sentiment analysis factors and machine learning algorithms in order to improve sentiment analysis performance as compared to the opinions of human assessors. A software system known as TJP was designed and developed to support this investigation. The research reported here has three main parts. Firstly, the role of data pre-processing was investigated with TJP using a combination of features together with publically available datasets. This considers the relationship and relative importance of superficial text features such as emoticons, n-grams, negations, hashtags, repeated letters, special characters, slang, and stopwords. The resulting statistical analysis suggests that a combination of all of these features achieves better accuracy with the dataset, and had a considerable effect on system performance. Secondly, the effect of human marked up training data was considered, since this is required by supervised machine learning algorithms. The results gained from TJP suggest that training data greatly augments sentiment analysis performance. However, the combination of training data and sentiment lexica seems to provide optimal performance. Nevertheless, one particular sentiment lexicon, AFINN, contributed better than others in the absence of training data, and therefore would be appropriate for unsupervised approaches to sentiment analysis. Finally, the performance of two sophisticated ensemble machine learning algorithms was investigated. Both the Arbiter Tree and Combiner Tree were chosen since neither of them has previously been used with sentiment analysis. The objective here was to demonstrate their applicability and effectiveness compared to that of the leading single machine learning algorithms, Naïve Bayes, and Support Vector Machines. The results showed that whilst either can be applied to sentiment analysis, the Arbiter Tree ensemble algorithm achieved better accuracy performance than either the Combiner Tree or any single machine learning algorithm
    corecore