6 research outputs found

    How to Normalize Co-Occurrence Data? An Analysis of Some Well-Known Similarity Measures

    Get PDF
    In scientometric research, the use of co-occurrence data is very common. In many cases, a similarity measure is employed to normalize the data. However, there is no consensus among researchers on which similarity measure is most appropriate for normalization purposes. In this paper, we theoretically analyze the properties of similarity measures for co-occurrence data, focusing in particular on four well-known measures: the association strength, the cosine, the inclusion index, and the Jaccard index. We also study the behavior of these measures empirically. Our analysis reveals that there exist two fundamentally different types of similarity measures, namely set-theoretic measures and probabilistic measures. The association strength is a probabilistic measure, while the cosine, the inclusion index, and the Jaccard index are set-theoretic measures. Both our theoretical and our empirical results indicate that co-occurrence data can best be normalized using a probabilistic measure. This provides strong support for the use of the association strength in scientometric research

    Análisis de los criterios de relevancia documental mediante consultas de información en el entorno web

    Get PDF
    La búsqueda de información no se entiende sin los motores de búsqueda web. Ante una demanda de información los buscadores web ordenan los resultados de forma que las páginas web más relevantes para la consulta aparezcan en las primeras posiciones. Esto genera un alto grado de competitividad entre las páginas web por obtener mejores asignaciones de relevancia por parte de los buscadores. Por norma general, los usuarios suelen consultar sólo los primeros resultados que devuelve un motor de búsqueda, en consecuencia ocupar estos puestos se traduce en mayor prestigio y visibilidad. Por tanto, la percepción de relevancia documental web por parte de los usuarios está intrínsecamente unida a los motores de búsqueda. En este trabajo se propone y desarrolla una metodología para determinar la relevancia documental web de forma automática, que se puede interpretar como: predicción automática de la posición que otorgaría un motor de búsqueda a un documento web entre los resultados de una consulta. La investigación se completa identificando los factores considerados en el posicionamiento web, a partir del estudio de herramientas empleadas en la optimización y promoción de páginas web. También se analiza el peso de cada uno de estos factores en los algoritmos de ordenación de los buscadores. Finalmente, en relación a las capacidades adquiridas para emular el comportamiento de los motores de búsqueda se propone un método de optimización web que estima previamente la rentabilidad del proceso. De esta forma no se invertirá en una campaña de promoción si los pronósticos de mejora del posicionamiento no se juzgan adecuados

    Localización y visualización de las principales líneas de investigación a través del análisis de co-palabras y del análisis de redes sociales. Propuesta metodológica para la delimitación temática de dominios científicos

    Get PDF
    Premio Extraordinario de Doctorado de la UAH en el año académico 2016-2017El objetivo principal de esta tesis doctoral se basa, fundamentalmente, en el diseño de una propuesta metodológica que posibilite la localización, identificación y visualización de las principales subdisciplinas científicas y líneas de investigación, favoreciendo así la delimitación temática de dominios científicos. La ciencia se caracteriza cada vez más por su multi e interdisciplinariedad. Esto dificulta la demarcación de los distintos ámbitos del conocimiento y complica la delimitación, definición y distribución de las diferentes áreas, categorías o aspectos temáticos involucrados en el desarrollo científico. Desde el punto de vista bibliométrico, este hecho plantea un gran reto metodológico, especialmente, en niveles de agregación muy concretos o en dominios caracterizados por una gran especificidad temática y más aún cuando la mayoría de las bases de datos bibliográficas no permiten una delimitación temática más específica que el nivel de áreas, categorías o disciplinas científicas. De este modo, el diseño metodológico ha consistido en la selección de distintos dominios científicos en cuanto a su cobertura temporal, geográfica y temática para comprobar su aplicabilidad con independencia del dominio científico que se analice. Por un lado, se ha utilizado la producción científica recogida en la base de datos Medline sobre salud y mujer durante el período 1965-2005 y por otro, la investigación española con células madre recogida en la base de datos Science Citation Expanded durante los años 1997-2012. Asimismo, la propuesta metodológica se caracteriza por el desarrollo y combinación de diferentes técnicas bibliométricas. En primer lugar, se basa en el empleo del análisis de co-palabras para la identificación de los términos más representativos a partir de su aparición conjunta en los documentos (Co-words Analysis). Concretamente, se han utilizado como unidades de análisis los términos de indización de las bases de datos bibliográficas utilizadas para el estudio, es decir, descriptores MeSH en el caso de Medline y los términos clave KeyWords Plus y Author Keywords en el caso del Science Citation Index Expanded. En segundo lugar, se han combinado técnicas bibliométricas procedentes del Análisis de Redes Sociales y de la representación y visualización de la información, fundamentalmente, mediante el uso de dos programas informáticos especializados como son Pajek y VOSviewer. En el caso del primero, éste se centra en la generación de mapas basados en grafos que en esta tesis han sido simplificados a través del algoritmo de poda Pathfinder Networks (PFNETs) y representados mediante el algoritmo de visualización Kamada Kawai. En el caso de VOSviewer éste se centra en la generación de mapas basados en la distancia a través de la visualización de similitudes (visualization of similarities ̶ VOS) y que utiliza diferentes técnicas de clustering en la representación gráfica. Dada las ventajas y limitaciones que conllevan el uso de una técnica frente a la otra se han utilizado ambos con la intención de que puedan ser utilizados de manera complementaria.Los resultados que se han obtenido en esta tesis doctoral han sido presentados en las seis publicaciones que la integran y que son consecuencia de las distintas fases de trabajo que fueron diseñadas. Concretamente, los resultados permiten concluir que la propuesta metodológica planteada es adecuada para la localización, identificación y visualización de las principales tendencias o líneas de investigación que caracterizan la producción científica, con independencia de la amplitud o especificidad del dominio utilizado y de la cobertura de las fuentes de información empleadas. Su adecuación metodológica para la delimitación temática la convierten en una herramienta con un gran potencial de cara al desarrollo de nuevos estudios bibliométicos en posibles investigaciones futuras. No obstante, y pese a ello, también esta propuesta metodológica puede ser objeto de mejora. En el futuro, podría ser interesante emplear otras técnicas de análisis como el Análisis de co-citación de Autores (ACA) o el empleo de otros términos como pueden ser los procedentes del título, resumen, palabras clave, etc., como unidades de análisis
    corecore