3 research outputs found

    A Comparative Study for String Metrics and the Feasibility of Joining them as Combined Text Similarity Measures

    Get PDF
    This paper aims to introduce an optimized Damerau–Levenshtein and dice-coefficients using enumeration operations (ODADNEN) for providing fast string similarity measure with maintaining the results accuracy; searching to find specific words within a large text is a hard job which takes a lot of time and efforts. The string similarity measure plays a critical role in many searching problems. In this paper, different experiments were conducted to handle some spelling mistakes. An enhanced algorithm for string similarity assessment was proposed. This algorithm is a combined set of well-known algorithms with some improvements (e.g. the dice-coefficient was modified to deal with numbers instead of characters using certain conditions). These algorithms were adopted after conducting on a number of experimental tests to check its suitability. The ODADNN algorithm was tested using real data; its performance was compared with the original similarity measure. The results indicated that the most convincing measure is the proposed hybrid measure, which uses the Damerau–Levenshtein and dicedistance based on n-gram of each word to handle; also, it requires less processing time in comparison with the standard algorithms. Furthermore, it provides efficient results to assess the similarity between two words without the need to restrict the word length

    Recognition of Noisy Subsequences Using Constrained Edit Distances

    No full text
    Let X* be any unknown word from a finite dictionary H. Let U be any arbitrary subsequence of X*. We consider the problem of estimating X* by processing Y, which is a noisy version of U. We do this by defining the constrained edit distance between X ε H and Y subject to any arbitrary edit constraint involving the number and type of edit operations to be performed. An algorithm to compute thisconstrained edit distance has been presented. Although in general the algorithm has a cubic time complexity, within the framework of our solution the algorithm possesses a quadratic time complexity. Recognition using the constrained edit distance as a criterion demonstrates remarkable accuracy. Experimental results which involve strings of lengths between 40 and 80 and which contain an average of 26.547 errors per string demonstrate that the scheme has about 99.5 percent accuracy. Copyrigh

    Contribución a la alineación de ontologías utilizando lógica difusa

    Get PDF
    En la actualidad, con el aumento de la cantidad de información disponible en Internet se hace cada vez más necesario crear mecanismos para facilitar la organización el intercambio de información y conocimiento entre las aplicaciones. La Web Semántica está destinada a resolver una de las carencias fundamentales de la Web actual, que es la falta de capacidad de las representaciones para expresar significados. Esta tarea se puede simplificar enormemente aądiendo información semántica y de contexto a las formas actuales de representación del conocimiento, utilizadas en la Web, de modo que los equipos puedan procesar, interpretar y conectar la información presentada en la WWW. Las ontologías se han convertido en un componente crucial dentro de la Web semántica, ya que permiten el diseǫ de exhaustivos y rigurosos esquemas conceptuales para facilitar la comunicación y el intercambio de información entre diferentes sistemas y entidades. Sin embargo, la heterogeneidad en la representación del conocimiento en las ontologías dificulta la interacción entre las aplicaciones que utilizan este conocimiento. Por ello, para compartir información, cuando se utiliza vocabularios heterogéneos se debe poder traducir los datos de un marco ontológico a otro. El proceso de encontrar correspondencias entre ontologías diferentes se conoce como alineación de ontologías. En esta tesis doctoral se propone un método de alineación de ontologías utilizando técnicas de lógica difusa para combinar diversas medidas de similitud entre entidades de ontologías diferentes. Las medidas de similitud propuestas se basan en dos elementos fundamentales de las ontologías: la terminología y la estructura. En cuanto a la terminología se propone una medida de similitud lingüística utilizando varias relaciones léxicas entre los nombres de las entidades, combinada con una medida de similitud semántica que tiene en cuenta la información del contexto de las entidades en las ontologías. En cuanto a la estructura se proponen medidas de similitud que utilizan tanto la estructura relacional como la estructura interna de los conceptos en las ontologías
    corecore