15 research outputs found

    Adaptive text mining: Inferring structure from sequences

    Get PDF
    Text mining is about inferring structure from sequences representing natural language text, and may be defined as the process of analyzing text to extract information that is useful for particular purposes. Although hand-crafted heuristics are a common practical approach for extracting information from text, a general, and generalizable, approach requires adaptive techniques. This paper studies the way in which the adaptive techniques used in text compression can be applied to text mining. It develops several examples: extraction of hierarchical phrase structures from text, identification of keyphrases in documents, locating proper names and quantities of interest in a piece of text, text categorization, word segmentation, acronym extraction, and structure recognition. We conclude that compression forms a sound unifying principle that allows many text mining problems to be tacked adaptively

    Similarity Learning for Authorship Verification in Social Media

    Full text link
    Authorship verification tries to answer the question if two documents with unknown authors were written by the same author or not. A range of successful technical approaches has been proposed for this task, many of which are based on traditional linguistic features such as n-grams. These algorithms achieve good results for certain types of written documents like books and novels. Forensic authorship verification for social media, however, is a much more challenging task since messages tend to be relatively short, with a large variety of different genres and topics. At this point, traditional methods based on features like n-grams have had limited success. In this work, we propose a new neural network topology for similarity learning that significantly improves the performance on the author verification task with such challenging data sets.Comment: 5 pages, 3 figures, 1 table, presented on ICASSP 2019 in Brighton, U

    Language Modeling Is Compression

    Full text link
    It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model

    Fast logistic regression for text categorization with variable-length n-grams

    Get PDF
    A common representation used in text categorization is the bag of words model (aka. unigram model). Learning with this particular representation involves typically some preprocessing, e.g. stopwords-removal, stemming. This results in one explicit tokenization of the corpus. In this work, we introduce a logistic regression approach where learning involves automatic tokenization. This allows us to weaken the a-priori required knowledge about the corpus and results in a tokenization with variable-length (word or character) n-grams as basic tokens. We accomplish this by solving logistic regression using gradient ascent in the space of all n-grams. We show that this can be done very efficiently using a branch and bound approach which chooses the maximum gradient ascent direction projected onto a single dimension (i.e., candidate feature). Although the space is very large, our method allows us to investigate variable-length n-gram learning. We demonstrate the efficiency of our approach compared to state-of-the-art classifiers used for text categorization such as cyclic coordinate descent logistic regression and support vector machines

    Актуалізація принципу економії мовних зусиль у сучасній англомовній чат-комунікації (перекладацький аспект)

    Get PDF
    Мета: дослідити специфіку лексикону, притаманного для Інтернет дискурсу, визначити способи економії мовних зусиль, проаналізувати функціонування скорочень під час онлайн переписки, з’ясувати доцільність використання компресії в процесі обміну віртуальними повідомленнями та виділити актуальні техніки перекладу текстів з ознаками компресії з англійської на українську мову. Теоретичне значення визначається проведенням комплексного аналізу актуальності і доцільності використання принципу економії мовних зусиль у англомовній чат-комунікації на прикладі віртуальних листувань та визначенням способів перекладу елементів компресії з урахуванням стилю викладення інформації у електронно-комунікативному середовищі. Зміст: Робота присвячена аналізу функціонування принципу економії мовних зусиль у англомовній чат-комунікації. У роботі досліджений феномен Інтернету, визначені основні види засобів для віртуального спілкування, виділені специфічні особливості та характеристики англомовної чат-комунікації, висвітлені основні фонетико-графічні, лексико-стилістичні та синтаксичні засоби задіяні для ефективізації принципу в Інтернет дискурсі. В роботі проведений ґрунтовний аналіз перекладацьких прийомів та засобів трансляції текстів з ознаками використання в них принципу економії мовних зусиль. Запропоновані методи та вправи для імплементації принципу економії мовних зусиль у навчальний процес студентів, які вивчають англійську мову. Практична цінність роботи полягає у можливості застосування отриманих даних у подальших дослідженнях з лексикології, мовознавства та на заняттях з практики перекладу, теоретичного курсу англійської мови тощо.Цель: исследовать специфику лексикона, присущего Интернет дискурсу, определить способы экономии языковых усилий, проанализировать функционирование сокращений во время онлайн переписки, выяснить целесообразность использования компрессии в процессе обмена виртуальными сообщениями и выделить актуальные техники перевода текстов с признаками компрессии с английского на украинский язык. Теоретическое значение определяется проведением комплексного анализа актуальности и целесообразности использования принципа экономии языковых усилий в англоязычной чат-коммуникации на примере виртуальных переписок и определением способов перевода элементов компрессии с учетом стиля изложения информации в электронно-коммуникативной среде. Содержание: Работа посвящена анализу функционирования принципа экономии языковых усилий в англоязычной чат-коммуникации. В работе исследован феномен Интернета, определены основные виды средств для виртуального общения, выделены специфические особенности и характеристики англоязычной чат-коммуникации, освещены основные фонетико-графические, лексико-стилистические и синтаксические средства, задействованные для эфективизации принципа в Интернет дискурсе. В работе проведен подробный анализ переводческих приемов и средств трансляции текстов с признаками использования в них принципа экономии языковых усилий. Предложены методы и упражнения для имплементации принципа экономии языковых усилий в учебный процесс студентов, изучающих английский язык. Практическая ценность работы состоит в возможности применения полученных данных в дальнейших исследованиях по лексикологии, языкознанию и на занятиях по практике перевода, теоретическому курсу английского языка.Goal: to study the specifics of the lexicon inherent in Internet discourse, to determine ways of linguistic efforts economy, to analyze the functioning of shortenings during online messaging, to find out the advisability of using compression in the process of exchanging virtual messages and to highlight the current techniques for translating texts with signs of compression from English into Ukrainian. Theoretical meaning is determined by conducting a comprehensive analysis of the relevance and expediency of using the principle of linguistic efforts economy in English chat communication on the example of virtual correspondence and by describing methods for translating compression elements, taking into account the style of presenting information in an electronic communication environment. Content: The work is devoted to the analysis of the functioning of linguistic efforts economy principle in English chat communication. The paper investigates the phenomenon of the Internet, identifies the main types of virtual communication, highlights the specific features and characteristics of English chat communication, studies the main phonetic, graphic, lexical, stylistic and syntactic means used to effectively effect the principle in the Internet discourse. The thesis provides a detailed analysis of translation techniques and means of translating texts with signs of using the principle of linguistic efforts economy. Methods and exercises are proposed for the implementation of the linguistic efforts economy principle in the educational process of students studying English. The practical value of the work lies in the possibility of using the obtained data in further research in lexicology, linguistics and in the classes on practice of translation, the theoretical course of the English language ect

    Sistema adaptativo neural para compressão sequencial e classificação de textos

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2001.O contexto de crescente disponibilidade de informação textual em formato digital evidencia a importância de mecanismos de compactação de dados sem perda e de classificação automática de textos para a gestão de informações. Esta dissertação apresenta um novo sistema para compressão de dados sem perda, utilizando uma rede neural artificial baseada na Teoria da Ressonância Adaptativa (Adaptive Resonance Theory - ART) para modelagem preditiva de seqüências discretas. Uma rede fuzzy ARTMAP modificada gera modelos para estimações probabilísticas e é integrada a um codificador aritmético. O sistema adaptativo neural de compressão desenvolvido realiza o aprendizado incremental dos padrões observados nas seqüências apresentadas, executando a compactação seqüencial e a descompactação exata de seqüências discretas sem conhecimento prévio da estrutura estatística da fonte das mensagens. O sistema foi testado diante de uma base de dados pública para benchmark (formada por arquivos binários e de texto) para avaliação de seu desempenho em relação a compactadores de texto tradicionais, atingindo taxas de compressão melhores que o software gzip. Além da viabilidade de utilização da rede neural proposta no estágio de modelagem do processo de compressão sem perda, a capacidade do sistema desenvolvido foi testada em duas tarefas de classificação automática de textos: identificação de idiomas e classificação por gênero de textos. A classificação por gênero de textos, por meio da abordagem do presente trabalho, visa designar textos a classes de publicações digitais, conforme a similaridade em relação ao modelo que representa cada classe. A técnica neural de compressão foi aplicada a estas tarefas, medindo a entropia cruzada entre cada exemplar de teste e um modelo gerado. A similaridade entre uma seqüência de texto e cada uma das classes é determinada autonomamente pelo sistema, sem a pré-definição de atributos ou conhecimento analítico sobre o texto ou um idioma específico. Na tarefa de identificação de idiomas todos os itens de teste foram perfeitamente reconhecidos e na tarefa de classificação por gênero de textos o sistema classificou corretamente 95,83% dos exemplares de teste apresentados. A compressão sem perda de seqüências discretas propicia um ambiente para estudo do comportamento da rede neural proposta em tarefas que requerem adaptação e estimação probabilística on-line. Além da compressão de dados sem perda, o sistema neural desenvolvido pode ser aplicado a outras áreas que requerem aprendizado de padrões, modelagem preditiva e classificação de seqüências, como descoberta de conhecimento em bases de dados para gestão de informações e inteligência de negócios
    corecore