42 research outputs found
Do Convolutional Networks need to be Deep for Text Classification ?
We study in this work the importance of depth in convolutional models for
text classification, either when character or word inputs are considered. We
show on 5 standard text classification and sentiment analysis tasks that deep
models indeed give better performances than shallow networks when the text
input is represented as a sequence of characters. However, a simple
shallow-and-wide network outperforms deep models such as DenseNet with word
inputs. Our shallow word model further establishes new state-of-the-art
performances on two datasets: Yelp Binary (95.9\%) and Yelp Full (64.9\%)
Подход к анализу новостных потоков как дискретных сигналов
Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.Описано модель, у якій текстові інформаційні потоки розглядаються як дискретні сигнали, амплітудні значення яких — частотно-семантичні ранги найбільш рейтингових термінів або документів. Обґрунтовано підхід до створення інструментарію, який забезпечує перегляд так званих «маргінальних» повідомлень за тематикою, що визначена запитом користувача, тобто таких, що відповідають на запитання, про що пишуть менше за все в межах визначеної тематики останнім часом.A data processing model in which text information streams are considered as discrete signals is described. Frequency-semantic ranks of terms or documents are used as peak values of signals. Creation of the toolkit providing viewing of so-called «marginal» messages on subject-matter determined by user query is validated. The method actually answers the question — what are the least mentioned subjects within determined subject-matter for some time past
Самоподобие массивов сетевых публикаций по компьютерной вирусологии
Описан подход к организации анализа потока тематических публикаций по компьютерной вирусологии, представленных в web-пространстве. Обоснована фрактальная природа информационных потоков, описаны основные алгоритмы, применяемые в процессе исследований, а также приведены прогнозные выводы на основе свойств персистентности временных рядов.Описано підхід до організації аналізу потоку тематичних публікацій з комп’ютерної вірусології, які наведені у web-просторі. Обґрунтовано фрактальну природу інформаційних потоків, описано основні алгоритми, що застосовуються в процесі досліджень, а також наведено прогнозні висновки на базі властивостей персистентності часових рядів.An approach to the organization of the analysis of a thematic publications stream on computer virology, submitted in web-space, is described. The fractal nature of information streams is proved, the basic algorithms used during researches are described and forecasts conclusions on the basis of persistent properties of time series are given
Дезінформація як нелінійний ефект взаємодії інформаційних тематичних потоків
Про механізм наповнення мережних інформаційних ресурсів хибними відомостями. Показано, що такі механізми можуть виникати як нелінійні ефекти взаємодії інформаційних тематичних потоків.О механизме наполнения сетевых информационных ресурсов ошибочными сведениями. Показано, что такие механизмы могут возникать как нелинейные эффекты взаимодействия информационных тематических потоков.On the mechanism of filling of network informative resources by erroneous information. It is shown that such mechanisms can arise up as non-linear effects of co-operation of informative thematic streams
Exploiting Class Labels to Boost Performance on Embedding-based Text Classification
Text classification is one of the most frequent tasks for processing textual
data, facilitating among others research from large-scale datasets. Embeddings
of different kinds have recently become the de facto standard as features used
for text classification. These embeddings have the capacity to capture meanings
of words inferred from occurrences in large external collections. While they
are built out of external collections, they are unaware of the distributional
characteristics of words in the classification dataset at hand, including most
importantly the distribution of words across classes in training data. To make
the most of these embeddings as features and to boost the performance of
classifiers using them, we introduce a weighting scheme, Term
Frequency-Category Ratio (TF-CR), which can weight high-frequency,
category-exclusive words higher when computing word embeddings. Our experiments
on eight datasets show the effectiveness of TF-CR, leading to improved
performance scores over the well-known weighting schemes TF-IDF and KLD as well
as over the absence of a weighting scheme in most cases.Comment: CIKM 202
Towards Integration of Statistical Hypothesis Tests into Deep Neural Networks
We report our ongoing work about a new deep architecture working in tandem
with a statistical test procedure for jointly training texts and their label
descriptions for multi-label and multi-class classification tasks. A
statistical hypothesis testing method is used to extract the most informative
words for each given class. These words are used as a class description for
more label-aware text classification. Intuition is to help the model to
concentrate on more informative words rather than more frequent ones. The model
leverages the use of label descriptions in addition to the input text to
enhance text classification performance. Our method is entirely data-driven,
has no dependency on other sources of information than the training data, and
is adaptable to different classification problems by providing appropriate
training data without major hyper-parameter tuning. We trained and tested our
system on several publicly available datasets, where we managed to improve the
state-of-the-art on one set with a high margin, and to obtain competitive
results on all other ones.Comment: Accepted to ACL 201