4 research outputs found

    Deep learning to filter SMS spam

    Get PDF
    The popularity of short message service (SMS) has been growing over the last decade. For businesses, these text messages are more effective than even emails. This is because while 98% of mobile users read their SMS by the end of the day, about 80% of the emails remain unopened. The popularity of SMS has also given rise to SMS Spam, which refers to any irrelevant text messages delivered using mobile networks. They are severely annoying to users. Most existing research that has attempted to filter SMS Spam has relied on manually identified features. Extending the current literature, this paper uses deep learning to classify Spam and Not-Spam text messages. Specifically, Convolutional Neural Network and Long Short-term memory models were employed. The proposed models were based on text data only, and self-extracted the feature set. On a benchmark dataset consisting of 747 Spam and 4,827 Not-Spam text messages, a remarkable accuracy of 99.44% was achieved

    TOPIC MODELING FOR EMAIL SUBJECT LINE ANALYSIS

    Get PDF
    Email processing is an emerging area in natural language processing and machine learning. Archivists often must make judgements about the relevance and record status of email messages. This study is an attempt to streamline that process by testing subject line and message body analysis using topic modeling. Specifically, using the Enron Corpus and Latent Dirichlet Allocation, this study investigates the extent to which email subject lines can be used to predict the content of email messages to support efficient archival processing.Master of Science in Information Scienc

    Alteração no protocolo SMTP para redução de spam.

    Get PDF
    Um dos principais problemas encontrados no serviço de correio eletrônico (e-mail) é o recebimento de mensagens não solicitadas, conhecidas como spam. O Spam causa sérios prejuízos às instituições, sobrecarregando servidores, links de comunicação e ativos de rede. Esta dissertação propõe uma modificação no Simple Mail Transfer Protocol (SMTP) para redução de spam. A modificação no protocolo produz três consequências vantajosas. A primeira, consiste na rejeição de e-mails indesejados, assim definidos pelo destinatário, evitando-se o desperdício de seus recursos computacionais e de rede. A segunda, consiste no retorno do e-mail indesejado ao spammer, causando-lhe custos, uma vez que seu servidor efetuará processamentos e armazenamentos extras para tratar o spam recusado. A terceira consequência consiste no fato de que, em virtude da recusa, o spammer remove o endereço do destinatário de suas listas de distribuição. A modificação do SMTP foi implementada em um servidor de e-mail Zimbra e avaliada exaustivamente. Os resultados são promissores. O servidor Zimbra modificado demonstrou desempenho e custo computacionais equivalentes ao do servidor Zimbra original quando recebe e-mails legítimos. Quando recebe spam porém, ele apresenta melhor desempenho e custo computacionais que os do servidor Zimbra original

    Um Sistema Antispam de Três Estágios.

    Get PDF
    Desde sua concepção, no final dos anos 80, a rede Internet vem consolidando-se como um dos mais eficientes meios para troca de informação. O correio eletrônico, ou email, tornou-se a principal ferramenta da Internet para troca de informações. Infelizmente, porém, o correio eletrônico tornou-se alvo de oportunistas, que se valem da praticidade e do baixo custo da ferramenta para disseminar conteúdo indesejado pela rede. Emails spam ou spams são informações recebidas sem o consentimento prévio dos destinatários. Os spams, na maioria das vezes, possuem conteúdo publicitário, visando a promoção de serviços, produtos ou eventos. Acabam gerando problemas, tais como o desperdício de largura de banda da rede e perda de tempo e produtividade por parte dos servidores de emails e dos próprios usuários. Este trabalho propõe um sistema antispam de três estágios. O primeiro, o pré-processamento, analisa o conteúdo do email em busca de padrões conhecidos e realiza eliminações e/ou substituições de conteúdo para simplifica-los e uniformiza-los. O segundo estágio, a seleção de características, determina as características mais relevantes do email, segundo duas classes de e-mails - Ham e Spam. O terceiro estágio, a classificação, classifica o email. O sistema antispam é exaustivamente testado sobre três bases de dados públicas, disponíveis na Internet - SpamAssassin, LingSpam e Trec. O desempenho do sistema é avaliado segundo o percentual de classificações corretas nas duas classes - Ham e Spam. São avaliados também os tempos gastos no treinamento e teste do classificador neural, bem como os aspectos relacionados à manipulação dos emails presentes nas bases de dados. Os resultados obtidos mostram-se bastante promissores. O sistema antispam apresenta ótimo desempenho nas três bases de dados empregadas
    corecore