2 research outputs found

    A Word Embedding Based Approach for Focused Web Crawling Using the Recurrent Neural Network

    Get PDF
    Learning-based focused crawlers download relevant uniform resource locators (URLs) from the web for a specific topic. Several studies have used the term frequency-inverse document frequency (TF-IDF) weighted cosine vector as an input feature vector for learning algorithms. TF-IDF-based crawlers calculate the relevance of a web page only if a topic word co-occurs on the said page, failing which it is considered irrelevant. Similarity is not considered even if a synonym of a term co-occurs on a web page. To resolve this challenge, this paper proposes a new methodology that integrates the Adagrad-optimized Skip Gram Negative Sampling (A-SGNS)-based word embedding and the Recurrent Neural Network (RNN).The cosine similarity is calculated from the word embedding matrix to form a feature vector that is given as an input to the RNN to predict the relevance of the website. The performance of the proposed method is evaluated using the harvest rate (hr) and irrelevance ratio (ir). The proposed methodology outperforms existing methodologies with an average harvest rate of 0.42 and irrelevance ratio of 0.58

    Avances y desafíos de métodos y modelos computacionales aplicados al análisis de información en redes sociales

    Get PDF
    This article presents the review of the scientific literature aimed at the study and analysis of the current state of projects and research related to the application of methods and models for social analysis in digital environments that facilitate the discovery of knowledge, based on information management contained in corporate social networks. The study explores topics related to the extraction of useful information and analysis of textual strings using latent semantic indexing techniques supported by natural language processing (PLN). For the review, a methodology based on the approach of keywords was applied, which function as input for the search of documentation in indexed databases and primary sources; The resulting documents are filtered in a detailed analysis carried out individually in each selected document and thus select the best sources and propose a technical review. Finally, some results and future work are proposed, to guarantee the start of new investigations. When conducting the proposed review, it is detected that research of this type establishes an appropriate path for business and social organizations, establishing computational strategies to discover knowledge through pattern visualization techniques, which help to make decisions about R&D. and that allow to guarantee the development and advancement of operational plans. Finally, the need to carry out and carry out projects related to information analysis issues found in virtual environments such as social networks, applying PLN techniques and R + D + i models; with the above, it could be given free way for the approach of new projects that belong to the area of knowledge.Este artículo presenta la revisión de la literatura científica dirigida al estudio y análisis del estado actual de investigaciones relacionadas con la aplicación de métodos y modelos para el análisis social en entornos digitales, los cuales faciliten el descubrimiento de conocimiento a partir de la gestión de información contenida en redes sociales de tipo corporativo. El estudio explora temas relacionados con la extracción de información útil y análisis de cadenas textuales utilizando técnicas de indexación semántica latente apoyadas por el procesamiento del lenguaje natural (PLN). Para la revisión, se aplicó una metodología basada en el planteamiento de palabras clave que funcionen como insumo en la búsqueda de documentación en bases de datos indexadas y fuentes primarias; los documentos resultantes se filtran en un análisis detallado que se realiza individualmente, seleccionando así las mejores fuentes para plantear una revisión técnica. Por último, se plantean algunos resultados y trabajos futuros para garantizar el inicio de nuevas investigaciones. Al realizar la revisión planteada, se detecta que investigaciones de este tipo establecen un camino apropiado para las organizaciones empresariales y sociales, dando estrategias computacionales para descubrir conocimiento a través de técnicas de visualización de patrones, los cuales ayudan a la toma de decisiones sobre I+D+i y permiten garantizar el desarrollo y avance de planes operativos. Se justifica la necesidad de realizar y llevar a cabo proyectos relacionados con temas de análisis de información que se encuentra en entornos virtuales como lo son las redes sociales, aplicando técnicas de PLN y modelos I+D+i; con lo anterior, se podría dar vía libre para el planteamiento de nuevos proyectos que pertenezcan al área de conocimiento
    corecore