10,495 research outputs found

    Tratamiento lingüístico de las preguntas en español en los sistemas de búsqueda de respuestas / Linguistic treatment of questions in Spanish for question classification in question answering systems

    Get PDF
    We propose a procedure for the linguistic treatment of Spanish questions as a step prior to their classification in question answering systems. The main types of question answering systems and their basic architecture are described. We review the principal question classification taxonomies used to date and the different fields from which they have been derived. Finally, we present the stages of linguistic analysis that the text of questions in question answering systems should be subject to in order to facilitate the location of appropriate answers

    La Web semántica y las tecnologías del lenguaje humano

    Get PDF
    The implementation of semantic web address the current represents a paradigm shift, as it has to be passed from a web-based and natural language created in a structured and organized web, where content will be semantically labeled the main element. This will represent a new philosophy and way of working, as the development and creation of content for this website require a great deal of effort. This is the point where they can speak human language technologies to provide mechanisms and tools to assist the implementation and expansion of this new paradigm

    WSM : metodología de web scraping para Android y ejemplificación mediante la aplicación UPMDroid

    Get PDF
    En la realización de este proyecto se ha tratado principalmente la temática del web scraping sobre documentos HTML en Android. Como resultado del mismo, se ha propuesto una metodología para poder realizar web scraping en aplicaciones implementadas para este sistema operativo y se desarrollará una aplicación basada en esta metodología que resulte útil a los alumnos de la escuela. Web scraping se puede definir como una técnica basada en una serie de algoritmos de búsqueda de contenido con el fin de obtener una determinada información de páginas web, descartando aquella que no sea relevante. Como parte central, se ha dedicado bastante tiempo al estudio de los navegadores y servidores Web, y del lenguaje HTML presente en casi todas las páginas web en la actualidad así como de los mecanismos utilizados para la comunicación entre cliente y servidor ya que son los pilares en los que se basa esta técnica. Se ha realizado un estudio de las técnicas y herramientas necesarias, aportándose todos los conceptos teóricos necesarios, así como la proposición de una posible metodología para su implementación. Finalmente se ha codificado la aplicación UPMdroid, desarrollada con el fin de ejemplificar la implementación de la metodología propuesta anteriormente y a la vez desarrollar una aplicación cuya finalidad es brindar al estudiante de la ETSIST un soporte móvil en Android que le facilite el acceso y la visualización de aquellos datos más importantes del curso académico como son: el horario de clases y las calificaciones de las asignaturas en las que se matricule. Esta aplicación, además de implementar la metodología propuesta, es una herramienta muy interesante para el alumno, ya que le permite utilizar de una forma sencilla e intuitiva gran número de funcionalidades de la escuela solucionando así los problemas de visualización de contenido web en los dispositivos. ABSTRACT. The main topic of this project is about the web scraping over HTML documents on Android OS. As a result thereof, it is proposed a methodology to perform web scraping in deployed applications for this operating system and based on this methodology that is useful to the ETSIST school students. Web scraping can be defined as a technique based on a number of content search algorithms in order to obtain certain information from web pages, discarding those that are not relevant. As a main part, has spent considerable time studying browsers and Web servers, and the HTML language that is present today in almost all websites as well as the mechanisms used for communication between client and server because they are the pillars which this technique is based. We performed a study of the techniques and tools needed, providing all the necessary theoretical concepts, as well as the proposal of a possible methodology for implementation. Finally it has codified UPMdroid application, developed in order to illustrate the implementation of the previously proposed methodology and also to give the student a mobile ETSIST Android support to facilitate access and display those most important data of the current academic year such as: class schedules and scores for the subjects in which you are enrolled. This application, in addition to implement the proposed methodology is also a very interesting tool for the student, as it allows a simple and intuitive way of use these school functionalities thus fixing the viewing web content on devices

    Géneros periodísticos de opinión : análisis y recuperación de información factual en sistemas documentales

    Get PDF
    Los géneros de opinión no solo ocupan un gran espacio en la prensa escrita sino también en los archivos digitales mediáticos. Al igual que otros géneros periodísticos, previamente investigados desde la óptica documental, los textos de opinión son tradicionalmente analizados en los sistemas digitales mediante técnicas documentales convencionales que no permiten responder con datos factuales (asuntos, argumentos, valoraciones, causas o fines del análisis, conclusiones o propuestas...) a preguntas pronominales de los usuarios (¿quién, por qué, cómo o qué... valora, analiza o concluye?). Se propone, como parte de un amplio programa de investigación que abarca todos los géneros periodísticos, atendiendo a sus tipologías y estrategias discursivas, un procedimiento adhoc para la organización y obtención, en sistemas digitales, de información factual de los textos de opinión mediante categorías homologables y testadas en otros géneros.Opinion texts not only occupy a large space throughout press pages, but also in the digital media archives. As other journalistic genres, previously studied from the information systems perspective, opinion texts are traditionally analyzed in such systems using conventional techniques of extraction of metadata, operations that do not allow factual data (issues discussed, evaluations, causes or purposes of the analysis, conclusions and proposals...) as an answer to pronominal questions asked by users (who, why, how or what... assesses, analyses or proposes?). As part of a broad program of research addressing all the journalistic genres and taking into account its typologies and discursive strategies, an adhoc procedure for the organization and retrieval of factual data from opinion texts is proposed keeping the genuine nature and potentials of this particular genre

    Atención de consultas del usuario usando el procesamiento del lenguaje natural en el ámbito de soporte técnico

    Get PDF
    En este proyecto de investigación se presenta un sistema de búsqueda de respuesta que busca procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico. El problema que afronta esta investigación es buscar la mejor técnica que permita obtener una comprensión a nivel textual de este tipo de atenciones y brindar respuestas en tiempos reducidos y con un mayor nivel de precisión, es por ello que el objetivo se puede definir con el siguiente texto “procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico”. Para cumplir con este objetivo se estudiaron diversas técnicas de procesamiento de lenguaje natural, que pasaron desde las técnicas ontológicas hasta la de búsqueda en corpus, de las cuales se tuvo que seleccionar la técnica que mejor se adecuó a la investigación tomando la de Levenshtein para aplicar a la misma a la cual se le complementó con otro algoritmo (LCS) que mejoró el motor de búsqueda y que hizo de ésta una herramienta evolucionada por sus características. Una vez establecida la base teórica se describe el diseño de la herramienta considerando que se realizó usando las metodologías RUP y UML orientada a objetos, así como también se hace una descripción técnica detallada de los algoritmos usados mostrando el código relevante o Core de la herramienta del motor de búsqueda y se hace una descripción de la herramienta implementada como una aplicación web. Los resultados experimentales son alentadores ya que se logró hacer uso de esta técnica con tiempos de respuesta de un promedio de 113.93 milisegundos dependiendo de la complejidad de la consulta y acercamiento a la pregunta almacenada teniendo nuestro motor de búsqueda una precisión del 93.33%. Por lo tanto, se puede concluir mencionando que esta investigación brinda aportes significativos en la aplicación este tipo de herramientas de este campo de estudio que aún no toma la relevancia que amerita.Tesi

    Sistemas de Inteligencia Web basados en redes sociales

    Get PDF
    El Análisis de las Redes Sociales (ARS) es un área que está emergiendo como imprescindible en los procesos de toma de decisiones. Su capacidad para analizar e intervenir una red social puede ser aprovechada para implantar tareas de vigilancia en los sistemas de inteligencia de un centro de investigación o una empresa de base tecnológica. El objetivo de este trabajo es realizar una propuesta para diseñar sistemas de inteligencia web basados en redes sociales. El primer obstáculo para implantar un sistema de estas características es el proceso de recolección de datos. Con objeto de resolver este problema se presenta una metodología para extraer redes sociales. El proceso de extracción se realiza analizando los resultados ofrecidos por los motores de búsqueda. Las consultas realizadas a los motores son construidas en base a direcciones de correo electrónico. A través de la red de extraída también se analiza su distribución espacial, el impacto global de una temática y las relaciones institucionales subyacentes. Como ejemplo concreto se analiza la estructura social de la comunidad que forma la lista de distribución REDES.Social Network Analysis (SNA) is an emerging area, essential in decision making processes. Its capacities to analyze and intervene in a social network can be used to implant surveillance tasks in research centers or technological-based businesses. The aim of this work is to make a proposal to design intelligence web systems based on social networks. The first obstacle to implant these systems is the data gather process. In order to solve this problem, an extracting social networks methodology is presented. The extraction process is carried out by analyzing the search engine results. Queries are based on electronic mails. From the extracted network, its spatial distribution of social relationships, the global thematic impact and the institutional relationships are also analyzed. The social structure of REDES email distribution list is analyzed as an example

    Information retrieval systems adapted to the biomedical domain

    Get PDF
    The terminology used in biomedicine has lexical characteristics that have required the elaboration of terminological resources and information retrieval systems with specific functionalities. The main characteristics are the high rates of synonymy and homonymy, due to phenomena such as the proliferation of polysemic acronyms and their interaction with common language. Information retrieval systems in the biomedical domain use techniques oriented to the treatment of these lexical peculiarities. In this paper we review some of these techniques, such as the application of Natural Language Processing (BioNLP), the incorporation of lexical-semantic resources, and the application of Named Entity Recognition (BioNER). Finally, we present the evaluation methods adopted to assess the suitability of these techniques for retrieving biomedical resources

    Creación de un simulador aeroportuario : sistema experto de asignación en el desembarque de pasajeros y generación de reglas a partir del conocimiento adquirido

    Get PDF
    Los aeropuertos son las infraestructuras del transporte aéreo donde las aeronaves aterrizan, despegan y se estacionan, para proceder al embarque y desembarque de los pasajeros, sus equipajes y la carga. Tanto en el movimiento de pasajeros, equipajes y carga en el aeropuerto como la estancia de una aeronave en el mismo, requieren la ayuda y colaboración de diferentes personas y equipos, entre los que destacan, de forma importante, los pertenecientes a las distintas actividades del “handling”. Cualquiera que haya tenido que pasar por un aeropuerto para coger un avión ha recibido muchos de estos servicios ya sea de forma directa o indirecta: facturación del equipaje, transporte en autobús hasta el avión, carga y descarga del equipaje, limpieza del avión, llenado de combustible de los depósitos del avión, etc. Esto hace que los servicios de “handling” (o también llamados servicios de asistencia en tierra) sean un elemento esencial y estratégico en la parte del transporte aéreo que se lleva a cabo en los aeropuertos, ya que está estrechamente relacionado con el nivel de la calidad del servicio global prestado a los usuarios. Un fallo en la prestación de estos servicios puede tener consecuencias negativas importantes tanto para la compañía aérea, como para los pasajeros, la carga aérea, el aeropuerto y el prestador de los servicios. Para que no se produzcan estos fallos es fundamental que se asignen tanto los recursos materiales como los recursos de personal aeroportuario lo más óptimamente posible a cada uno de los servicios prestados, además de dar una solución rápida si sucede algún imprevisto y se debieran de cancelar asignaciones de recursos porque fuera prioritario que estuvieran realizando otra función. En la mayoría de los aeropuertos actuales el trabajo de asignar los recursos a los servicios aeroportuarios lo realiza o el propio prestador de servicios o un sistema software de forma semiautomática. Este proyecto consiste en la creación de un simulador aeroportuario, y a partir del mismo, recoger información sobre las variables de decisión en las que se apoya el prestador de servicios para realizar la asignación (o cancelación de la asignación) de las escalerillas por las que bajan los pasajeros del avión cuando éste llega a su zona de estacionamiento dentro del aeropuerto. Posteriormente, se usa un modelo de minería de datos para crear el conjunto de reglas que describen el razonamiento llevado a cabo por el prestador de servicios. Aparte, en dicho simulador se puede cargar el modelo que representa el conjunto de reglas para que se realice la asignación o cancelación automática de las escalerillas a los aviones que van aterrizando. _____________________________________________________________________________________________________________________Airports are infraestructures of air traffic where the aircrafts land, take off and park, to proceed to the boarding and disembarkation of passengers, their luggage and freight. The movement of passengers, luggage and freight at the airport and the stay of an aircraft at it require the help and collaboration of different people and equipment, being of special importance those that belong to different activities of airport handling. Someone who has had to go through an airport to take an aircraft has received a lot of services either of a direct or indirect way: luggage check-in, transport in bus to aircraft, loading and unloading of luggage, cleaning of aircraft, filling of fuel of tanks of aircraft, etc. This makes that handling services (also called ground handling services) are an essential and strategic element in the part of air transport carried out at the airports, because this is closely related to the level of quality of global service that it is provided to users. A mistake in the provision of these services can have important negative consequences for airlines, passengers, air freight, the airport and the people responsible of rendering these services. To prevent that these mistakes happen it is fundamental that both material resources and human resources of the airport are allocated in the most optimal possible way to each one of rendered services, apart from giving a fast solution if some unforeseen event happens and it was necessary to cancel allocations of resources because the priority was that they perform another function. In most of current airports the task of allocating resources to the airport services is carried out by people responsible of rendering these services or a software system of a semiautomatic way. In this project we aim to create an airport simulator, and with its help, obtain information about the decision variables used by people responsible of rendering airport services to make the allocation (or cancellation of allocation) of the steps that passengers use to go down the aircraft when it arrives at its parking space at the airport. Subsequently, we track a data mining model to create the rules set that describe the concluded reasoning of people responsible of rendering of airport services. Moreover, the model that represents the rules set can be loaded in this simulator to simulate the allocation or automatic cancellation of steps when aircrafts land.Ingeniería en Informátic

    Automatic identification of business trends through analysis of e-commerce sites

    Get PDF
    En esta investigación se construyó una aplicación Web que permite hacer seguimiento de los productos ofertados en cuatro plataformas de comercio electrónico con presencia en Colombia (Mercado Libre Colombia, Amazon, eBay y Linio Colombia) por un periodo específico de tiempo, con el objetivo de predecir sus comportamientos en el futuro reciente y comparar estos contra los comportamientos reales. El problema que intenta resolver esta investigación es: ¿cómo determinar de forma automática las tendencias comerciales que surgen en sitios de comercio electrónico con presencia en Colombia? El seguimiento a los productos se hizo a través de tareas programadas (crons) que extraen datos específicos (precio, cantidad vendida, cantidad disponible) de dichas plataformas a través del consumo de sus APIs o con la técnica de Web Scraping, una vez recolectados los datos y, con el método estadístico de los mínimos cuadrados, se proyectó su comportamiento por el mismo nú - mero de días que duró su recolección, cuando una tarea programada termina su objetivo de extracción, se visualizan los resultados con respecto a las variables extraídas en la página de estadística individual de cada producto. Los entregables obtenidos como resultado de la ejecución de las fases de la investigación fueron: La especificación DOM/API de cada sitio seleccionado: contiene una descripción general del funcionamiento de cada sitio seleccionado a nivel de API o a nivel de DOM, esto de acuerdo a la estrategia de extracción seleccionada para cada sitio. Modelo del repositorio de datos: describe el modelo utilizado para almacenar los datos a extraer y los datos a graficar. Scripts de extracción y proyección de comportamientos: son un conjunto de programas esvii critos en Python que permiten la extracción de datos desde los sitios seleccionados, además de calcular su comportamiento en el futuro reciente. Interfaz Web: es una aplicación Web escrita en el framework de desarrollo Django, que permite visualizar los resultados que calcula el script de proyección de comportamiento de productos, además permite administrar las tareas programadas, los sitios y las categorías. Palabras claves: Tendencias comerciales, comercio electrónico, búsqueda de tendencias comerciales, tendencias comerciales en Internet, análisis de tendencias de e-commerce, identificación automática de tendencias comerciales, e-commerce tendencias, repositorios de tendencias comerciales, software de búsqueda de tendencias comerciales, software de tendencias comercia - les, algoritmos de tendencias comerciales, método de los mínimos cuadrados.Universitat Oberta de Catalunya UOC1. Introducción 17 1.1 Antecedentes 17 1.2 Definición del problema 19 1.3 Justificación 19 1.4 Objetivos 20 1.4.1 Objetivo general 20 1.4.2 Objetivos específicos 20 1.5 Estructura del documento 20 2. Revisión bibliográfica 23 2.1 Estado del Arte 23 2.1.1 eCommerce, comportamientos y tendencias 24 2.1.2 eCommerce y clasificación 31 2.1.3 Consulta y extracción Web 32 2.2 Marco Teórico 35 2.2.1 e-Commerce 37 2.2.2 Tendencias comerciales 38 2.2.3 Information Retrieval (IR, recuperación de información) 38 2.2.4 Application Programming Interface (API) 38 2.2.5 Crawler 39 2.2.6 Buscadores Web 41 2.2.7 Ingeniería de Software 42 .2.8 Metodologías ágiles 46 2.2.9 Métodos de tendencia lineal 46 2.2.9.1 Método gráfico (diagrama de dispersión) 46 2.2.9.2 Regresión lineal simple 47 2.2.9.3 Regresión lineal por mínimos cuadrados 47 3. Marco Legal 49 4. Método de la Investigación 53 4.1 Enfoque metodológico 53 4.2 Definición de población y muestra 53 4.3 Descripción general de los sitios 54 4.3.1 Mercado libre Colombia. 54 4.3.2 Tiendas Monomi 55 4.3.3 OLX Colombia 55 4.3.4 Linio Colombia 55 4.3.5 eBay 55 4.3.6 Amazon 55 4.3.7 Tmart 55 4.3.8 BangGood 56 4.3.9 Dafiti 56 4.3.10 Éxito. 56 4.3.11 Falabella Colombia 56 4.3.12 Alibaba 56 4.3.13 Alkosto 56 .3.14 HomeCenter 57 4.4 Selección de sitios Web 57 4.4.1 Criterios de selección para los Sitios Web de comercio electrónico a modelar 57 4.4.2 Método de selección de sitios: matriz de selección 58 4.4.3 Proceso de selección de sitios de comercio electrónico 59 4.5 Técnicas de Recolección de Datos 68 4.6 Método de Proyección de Comportamiento: Mínimos Cuadrados 69 4.6.1 Criterios de selección de métodos estadísticos. 69 4.6.2 Selección del método estadístico. 70 4.7 Fases desarrolladas para la construcción del producto de software 70 4.8 Algunos Aspectos de Diseño 72 4.9 Plan de Presentación de Resultados 73 5. Resultados de la Investigación 74 5.1 Análisis DOM y API de los Sitios Seleccionados 74 5.1.1 Mercado libre 74 5.1.2 eBay 78 5.1.3 Amazon 81 5.1.4 Linio Colombia 86 5.2 Modelo del Repositorio de Datos 89 5.3 Aspectos de Diseño de la Aplicación 91 5.3.1 Aspectos visuales de la interfaz Web de consulta 91 5.3.2 Aspectos visuales de la interfaz Web de administración 93 5.3.3 Modelo de clases de la aplicación 95 5.3.4 Consideraciones de despliegue y código fuente 99 5.3.5 Ejemplos de categorías y productos 99 5.3.6 Descripción y uso de la herramienta 102 5.3.6.1 Listar sitios 102 5.3.6.2 Listar categorías 103 5.3.6.3 Listar tareas programadas 104 5.3.6.4 Listar productos 105 5.4 Descripción de resultados para un producto específico 107 6. Conclusiones 113 7. Recomendaciones y Trabajos Futuros 116 Bibliografía 118 AnexosMaestríaIn this research, a Web application was built that allows monitoring of the products offered on four e-commerce platforms with a presence in Colombia (Mercado Libre Colombia, Amazon, eBay and Linio Colombia) for a specific period of time, with the aim of predicting their behavior in the recent future and comparing these against actual behaviors. The problem that this research tries to solve is: how to automatically determine the trading trends that arise on trading sites with a presence in Colombia? The monitoring of the products was done through scheduled tasks (crons) that extract data (price, quantity sold, quantity available) of said platforms through the consumption of its APIs or with the Web Scraping technique, once the data has been collected and, with the statistical method of least squares, its behavior was projected by the same number - number of days your collection lasted, when a scheduled task finishes its extraction goal, the results are displayed with respect to the extracted variables on the statistics page individually for each product. The deliverables obtained as a result of the execution of the research phases were: The DOM/API specification of each selected site: contains a general description of the operation of each site selected at the API level or at the DOM level, this according to the extraction strategy selected for each site. Data repository model: describes the model used to store the data to be extracted and the data to be plotted. Behavior extraction and projection scripts: they are a set of programs esvii scripts in Python that allow the extraction of data from the selected sites, in addition to calculate its behavior in the recent future. Web interface: it is a Web application written in the Django development framework, which allows view the results calculated by the product behavior projection script, It also allows you to manage scheduled tasks, sites and categories. Keywords: Business trends, electronic commerce, search for business trends, business trends on the Internet, analysis of e-commerce trends, identification automatic commercial trends, e-commerce trends, trend repositories trading, trading trend search software, trading trend software - les, trading trend algorithms, least squares method.Modalidad Presencia

    Software para identificar y localizar diversas variedades de plantas de quinua en el distrito de Querocoto - Cajamarca

    Get PDF
    El proyecto desarrolló un software para la identificación y localización de manera rápida de variedades de plantas de quinua Utilizando datos y la inteligencia artificial. Se halló patrones para la identificación de quinua, que permita determinar la similitud con otras de la misma especie, de forma rápida y confiable. El software realizará una búsqueda en los repositorios de datos de la comunidad científica, para luego analizarlos en busca de patrones que los identifique como parte de las diversas variedades de quinua. Esta investigación apoyó a la comunidad científica ligada a la investigación en agricultura a encontrar variedades de plantas de quinua con características que les permita mejorar y conservar el recurso genético de Chenopodium Quinoa. La comunidad científica que investiga en el campo biológico, cada día se enfrenta a mayores retos que implican el manejo de enormes volúmenes de datos que crecen de manera exponencial en tamaño y complejidad, es así que uno de los problemas que presenta la empresa es de no tener un resultado exacto en el momento de identificar una determinada planta de quinua, hasta hoy se realiza de forma manual por los especialistas, requiriendo tiempo y esfuerzo para su correcta identificación y localización entre sus variedades. Es por ello que se desarrolló un software por medio de un algoritmo de reconocimiento de imágenes que ayudará a los investigadores que requieren procesar grandes volúmenes de información en el menor tiempo posible con la mayor fiabilidad. El proyecto pretende obtener un software que utilizando datos y la inteligencia artificial, pueda realizar el análisis automático, aportando información a los investigadores que requieren procesar grandes volúmenes de información en el menor tiempo posible con la mayor fiabilidad. Con base en esto, el presente trabajo consiste en automatizar el proceso de identificación y localización de las plantas de quinua, para la localización se tuvo el apoyo del GPS, y para el proceso de identificación se basó en imágenes fotográficas, utilizando reconocimiento de patrones, teniendo como objetivo general la construcción de un software para la identificación y localización de las diversas variedades de la planta de quinua, utilizando procesamiento de imágenes para lograrlo
    corecore