9 research outputs found

    SUMMARIZING SEARCH RESULTS WITH AUTOMATIC TABLES OF CONTENTS

    Get PDF

    Text Classification with Imperfect Hierarchical Structure Knowledge

    Get PDF
    Many real world classification problems involve classes organized in a hierarchical tree-like structure. However in many cases the hierarchical structure is ignored and each class is treated in isolation or in other words the class structure is flattened (Dumais and Chen, 2000). In this paper, we propose a new approach of incorporating hierarchical structure knowledge by cascading it as an additional feature for Child level classifier. We posit that our cascading model will outperform the baseline “flat” model. Our empirical experiment provides strong evidences supporting our proposal. Interestingly, even imperfect hierarchical structure knowledge would also improve classification performance

    Recruitment and Intelligent System

    Get PDF
    The Carrier Centre is information, analytical and organizational support of job placements of students and graduates. The information system for supporting all main activities was developed. Nowadays the system strengthens links between students and companies as repository of the CVs and vacancies. On the other side the system should be as a virtual recruiter that take into account student’s personal abilities and preferences, available jobs, Company profiles, local labour market infrastructure, industrial and technological trends, account job specification, available human resource to provide the effective decisions on employment. This paper presents the intelligent management system based on text mining methods for supporting recruitment services.«Кар’єра – Центр» – це інформаційна, аналітична і організаційна допомога в працевлаштуванні студентів і випускників. Була створена інформаційна система для підтримки всіх основних видів діяльності. В даний час система зміцнює зв’язки між студентами і компаніями як сховище резюме і вакансій. З іншого боку, система повинна бути як віртуальний рекрутер, який бере до уваги особисті здібності і переваги студента, доступні робочі місця, профілі компанії, місцеву інфраструктуру трудового ринку, індустріальні і технологічні тенденції, рахує специфікацію роботи, доступний людський ресурс, щоб забезпечити ефективні рішення у сфері зайнятості. Ця стаття представляє інтелектуальну систему управління, засновану на методах обробки тексту для підтримки рекрутер-сервісів.«Карьера – Центр» – это информационная, аналитическая и организационная помощь в трудоустройстве студентов и выпускников. Была создана информационная система для поддержки основных видов деятельности. В настоящее время система укрепляет связи между студентами и компаниями как хранилище резюме и вакансий. С другой стороны, система должна быть как виртуальный рекрутер, который принимает во внимание личные способности и предпочтения студента, доступные рабочие места, профили компании, местную инфраструктуру трудового рынка, индустриальные и технологические тенденции, считает спецификацию работы, доступный человеческий ресурс, чтобы обеспечить эффективные решения в области занятости. Эта статья представляет интеллектуальную систему управления, основанную на методах обработки текста для поддержки рекрутер-сервисов

    Performance measurement framework for hierarchical text classification

    Get PDF
    Hierarchical text classification or simply hierarchical classification refers to assigning a document to one or more suitable categories from a hierarchical category space. In our literature survey, we have found that the existing hierarchical classification experiments used a variety of measures to evaluate performance. These performance measures often assume independence between categories and do not consider documents misclassified into categories that are similar or not far from the correct categories in the category tree. In this paper, we therefore propose new performance measures for hierarchical classification. The proposed performance measures consist of category similarity measures and distance based measures that consider the contributions of misclassified documents. Our experiments on hierarchical classification methods based on SVM classifiers and binary Nave Bayes classifiers showed that SVM classifiers perform better than Nave Bayes classifiers on Reuters21578 collection according to the extended measures. A new classifier-centric measure called blocking measure is also defined to examine the performance of subtree classifiers in a top-down level-based hierarchical classification method

    Text classification in a hierarchical mixture model for small training sets

    No full text

    Text classification in a hierarchical mixture model for small training sets

    Full text link

    Classificação multi-etiqueta hierárquica de textos segundo a taxonomia ACM

    Get PDF
    Mestrado em Engenharia InformáticaMuitos dos trabalhos de classificação existentes na literatura, envolvem a atribuição a cada instância (exemplo) de uma única classe, de entre um conjunto pré-definido de classes normalmente pequeno e organizado de forma plana. Porém, existem problemas de classificação mais complexos, em que a cada instância é possível atribuir mais do que uma classe, podendo as classes, estar organizadas numa estrutura hierárquica. Para estes problemas, existe um conjunto de abordagens para lidar com o facto de uma instância poder pertencer a mais do que uma classe (classificação multi-etiqueta). Existem também abordagens para lidar com a organização hierárquica das classes (classificação hierárquica). Esta dissertação, apresenta um estudo das abordagens e conceitos de classificação multi-etiqueta e hierárquica, aplicados à classificação de documentos de texto. Trata-se, portanto, de um problema de classificação, em que as instâncias são documentos de texto, que podem pertencer a mais do que uma classe e estas encontram-se organizadas hierarquicamente. Nos problemas de classificação de texto, uma fase importante, é o pré-processamento dos documentos. Um processo transformativo, aplicado normalmente para reduzir o número de termos de um documento, de forma a obter uma representação dos documentos, mais adequada para as fases seguintes. Nesta dissertação, são também estudadas as várias tarefas de pré-processamento que podem ser realizadas, como por exemplo, remoção de stopwords, stemming, esquemas de atribuição de pesos aos termos. No estudo experimental realizado, foi utilizado o esquema de classificação ACM (Computing Classification System), que define um conjunto de classes, organizadas hierarquicamente, nas áreas científicas no campo da computação. O estudo experimental realizado, consistiu no desenvolvimento de uma solução para automatizar a navegação e recolha de documentos classificados da biblioteca digital ACM, pré-processamento dos documentos, construção e aplicação de diferentes classificadores a documentos ainda não classificados e por fim a avaliação do seu desempenho de previsão. Foi proposta uma metodologia para classificação multi-etiqueta hierárquica que combina as abordagens usadas na classificação multi-etiqueta e na classificação hierárquica que se mostrou adequada para a resolução destes problemas
    corecore