740 research outputs found

    Evaluación de sistemas de extracción de frases clave.

    Get PDF
    El manejo de información en la actualidad es un factor de gran importancia dentro de los sectores públicos y privados. Con el crecimiento constante de los volúmenes de información electrónica, ésta requiere ser organizada para su uso. Con la tecnología que se cuenta hoy en día, el manejo de la información se ha facilitado. Dentro del área de Procesamiento de Lenguaje Natural una de las disciplinas que la integran es la Recuperación de Información (RI). La RI es el proceso de encontrar en un repositorio grande de datos, material (usualmente documentos) de naturaleza no estructurada (usualmente texto) o semiestructurada (páginas Web) que satisfaga una necesidad de información [Manning 09]. Para lograr la RI, existen varios sistemas, estos reciben el nombre de sistemas de recuperación de información. Un Sistema de Recuperación de Información (SRI) consiste básicamente de un conjunto de procesos interrelacionados que permiten obtener información de interés, a partir de una determinada consulta [Jiménez 03]. Un ejemplo de un SRI es un buscador Web, ya que se ingresa una búsqueda y este devuelve los resultados que han coincidido con el texto de entrada.Hoy en día, la cantidad de información electrónica en forma de texto ha aumentado considerablemente por lo que una búsqueda de información puede traer consigo varios documentos recuperados. Posteriormente, los documentos recuperados se tienen que revisar para saber si contienen lo que realmente se busca. Una manera de simplificar una búsqueda es el empleo de palabras o frases clave ya que actúan como filtro en un campo de búsqueda. Las palabras o frases clave se utilizan en muchas áreas, por ejemplo, la mercadotecnia y publicidad, en donde el objetivo es capturar la atención del público. De igual forma, en todo aquello que se quiere dar a conocer hacia el público en general. Ya sean documentos de textos impresos o electrónicos, las frases clave ayudan al lector mostrándole las ideas principales del texto. En esta tesis, se comparan los sistemas de extracción automática de frases clave sobre un conjunto de artículos científicos utilizados en la tarea 5 del SemEval-2010, con el objetivo de conocer qué sistemas pueden encontrar las frases clave que fueron propuestas por un ser humano. En la experimentación se presentan los resultados de la comparación entre los sistemas instalables y en línea. Por último, los resultados de la evaluación se comparan con los de la tarea 5 del SemEval-2010

    Algoritmo hiperheurístico para generar una solución factible al problema de la programación de docentes en una institución de educación media para una jornada escolar

    Get PDF
    Algoritmo hiperheurístico que implementa heurística de bajo nivel y metaheurística de algoritmo genético para el problema de programación de carga docente

    DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS

    Get PDF
    Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes. Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras. Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos. En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento. Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte. En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación. Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño

    DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS

    Get PDF
    Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes. Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras. Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos. En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento. Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte. En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación. Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño

    Generación automática de resúmenes independientes del lenguaje

    Get PDF
    En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte

    Modelo para crear portafolios de inversión óptimos en la bolsa valores de Colombia

    Get PDF
    El interés de las personas y empresas por realizar diferentes inversiones que les permita obtener remanentes, ha despertado curiosidad y deseo por el mercado de renta variable, lo que ha generado el crecimiento y creación de nuevas empresas dedicadas a la consultoría y asesoría para realizar inversiones en la Bolsa de Valores de Colombia, las entidades realizan un estudio y seguimiento al comportamiento del mercado a través de modelos o mecanismos que permiten inducir las tendencias de proyección positiva o negativa de corto y largo plazo para cada una de las acciones, sin asegurar en su totalidad las predicciones por condiciones anormales del mercado que se puedan presentar. Teniendo en cuenta lo anterior, el objetivo del presente trabajo de grado es proponer un modelo abierto con el paso a paso, que permita a los usuarios o empresas realizar seguimiento al comportamiento de las acciones y conocer las tendencias o proyecciones del resultado de las mismas a través de soluciones óptimas de mínimo riesgo y mayor rentabilidad comparando resultados con otro modelo, sin tener intermediarios que realicen esta asesoría a través de mecanismos utilizados como cajas negras que no permiten transferir el conocimiento

    Inducción de medidas de similitud utilizadas en tareas de procesamiento de lenguaje natural, mediante regresión simbólica

    Get PDF
    El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural

    Método de identificación automática para reconocimiento de elementos musicales presentes en imágenes 2D de partituras usando técnicas de aprendizaje profundo

    Get PDF
    Trabajo de investigaciónEl proyecto consta de un experimento el cual tiene como objetivo la detección e identificación de elementos musicales presentes en imágenes de partituras 2D con el objetivo de crear una línea base que pueda ser implementada con el fin de apoyar la lectura de las partituras musicales. Se implementa un algoritmo basado en aprendizaje profundo que a través de la arquitectura de redes neuronales FASTER RCNN permite la detección de caracteres en imágenes. El desempeño del proyecto da como resultado una precisión de 71.8% y un AR75 de 69.1% mostrando así un buen desempeño en la identificación y clasificación de las imágenes.RESUMEN INTRODUCCIÓN 1. GENERALIDADES 2. MARCOS DE REFERENCIA 3. METODOLOGÍA 4. CRONOGRAMA DE ACTIVIDADES 5. PRESUPUESTO 6. INSTRUMENTOS O HERRAMIENTAS UTILIZADAS 7. RECOLECCIÓN DE DATOS 8. DESARROLLO DE LA PROPUESTA 9. RESULTADOS 10. CONCLUSIONES 11. RECOMENDACIONES 12. TRABAJOS FUTUROS 13. ESTRATEGIAS DE COMUNICACIÓN Y DIVULGACIÓN. BIBLIOGRAFÍAPregradoIngeniero de Sistema

    Determinación del desempeño de resúmenes generados automáticamente para el idioma español

    Get PDF
    En la actualidad el crecimiento rápido de internet ha provocado gran cantidad de información que está disponible en formato electrónico que crece de manera exponencial. Esto da lugar a millones de documentos cuya magnitud dificulta en gran medida su manejo. Esto lleva a la búsqueda de nuevos programas que suplan las tareas cada vez más específicas. Por ejemplo, cuando se quiere saber más de un tema es necesario revisar más de un documento ya sea en internet o en la computadora. Después se necesita identificar un documento con mayor relevancia de información para nuestros fines. Lo que facilitaría la tarea de búsqueda es si pudiéramos tomar solamente las partes más relevantes (documentos, renglones, oraciones, frases o palabras) y leer solo lo importante. Precisamente estas partes formarían un resumen de un tema buscado. Un resumen se define como un texto muy corto que comunica la información más importante del documento original (Ledeneva 2008). Esta tesis se trata de la generación automática de resúmenes, que es una tarea de gran utilidad para hacer las tareas más rápidas con ayuda de una herramienta. En el presente trabajo se evaluan las diferentes herramientas comerciales tanto en línea como las que son instalables para saber su desempeño en el idioma español. Los experimentos se llevan a cabo sobre el corpus TER (corpus en español). Posteriormente, el desempeño de las herramientas comercioales se compara con el método del estado de arte de (Matias 2016), ya que se había probado como uno de los mejores métodos para los idiomas inglés y portugués (Matias 2013, Ibañez 2013)

    Plan de Negocios para la creación de una empresa que brinda soluciones basados en inteligencia artificial con énfasis en Algoritmos Genéticos

    Get PDF
    En este proyecto se plantea un estudio acerca de la viabilidad de un PLAN de NEGOCIOS para LA CREACIÓN de UNA EMPRESA QUE BRINDA SOLUCIONES BASADOS EN HERRAMIENTAS de INTELIGENCIA ARTIFICIAL CON ENFASIS EN ALGORITMOS GENETICOS, la cual tiene como propósito desarrollar soluciones a problemas de alta complejidad como por ejemplo lo es el tema de asignaciones de aulas educativas. Mas adelante la empresa proyecta resolver otros problemas de este tipo, para las cuales irá desarrollando sus propias investigaciones pero siempre apoyados de una de las técnicas más difundidas de la inteligencia artificial en nuestros tiempos. Como fundamentos para la investigación se realizó el estudio de una serie de métodos ya existentes y de uso común en la elaboración de un plan de negocios. En principio se determina la población que va a ser objeto de estudio, la cual debe representar características relevantes para la actividad económica de la empresa, así por medio de un muestreo no probabilístico llamado muestreos a conveniencia ó selección intencionada se halla el tamaño, dando como resultado un valor de siete Universidades certificadas a encuestar en el Eje Cafetero
    corecore