8 research outputs found
Comparación de dos algoritmos recientes para inferencia gramatical de lenguajes regulares mediante autómatas no deterministas
El desarrollo de nuevos algoritmos, que resulten convergentes y eficientes, es un paso necesario para un uso provechoso de la inferencia gramatical en la solución de problemas reales y de mayor tamaño.
En este trabajo se presentan dos algoritmos llamados DeLeTe2 y MRIA, que implementan la
inferencia gramatical por medio de autómatas no deterministas, en contraste con los algoritmos más comúnmente empleados, los cuales utilizan autómatas deterministas. Se consideran las ventajas y desventajas de este cambio en el modelo de representación, mediante la descripción detallada y la
comparación de los dos algoritmos de inferencia con respecto al enfoque utilizado en su implementación, a su complejidad computacional, a sus criterios de terminación y a su desempeño sobre un cuerpo de datos sintéticos
El algoritmo HyRPNI y una aplicación en bioinformática
Proponemos un algoritmo de inferencia gramatical para lenguajes regulares que permite ahorrar cómputo al usar dos criterios diferentes para elegir los estados a ser procesados, un criterio se usa en la primera fase del proceso de inferencia (al principio) y el otro en el resto del proceso. Realizamos experimentos para observar el desempeño del algoritmo, para aprender sobre el tamaño ideal de su primera fase y para mostrar su aplicación en la solución de un problema específico en bioinformática: la predicción de sitios de corte en poliproteínas codificadas por virus de la familia Potyviridae./ We propose a grammar inference algorithm for regular languages which saves computational cost by using two different criteria to choose states to be processed: one in the first phase of the inference process (the beginning) and another for the rest of the process. We applied experiments to observe performance of the algorithm, to learn about the best size of its first phase and to show results of its application to solve a specific problem in Bioinformatics: the cleavage site prediction problem in polyproteins encoded by viruses of the Potyviridae family
Estudio de la mezcla de estados determinista y no determinista en el diseño de algoritmos para inferencia gramatical de lenguajes regulares
Esta investigación aborda el tema del diseño de algoritmos de inferencia gramatical para lenguajes regulares, particularmente en lo relacionado con la mezcla de estados como elemento fundamental del proceso de inferencia. Se estudia la mezcla de estados en sus variantes determinista y no determinista desde el punto de vista teórico. Como resultado se propone una manera eficiente de realizar la mezcla de estados no determinista y se demuestra que la inferencia gramatical de lenguajes regulares basada en la mezcla de estados (tanto determinista como no determinista) converge en el límite independientemente del orden en que se realizan las mezclas. La demostración es de interés ya que entre otras consecuencias, permite afirmar la convergencia en el límite de la estrategia EDSM (Evidence Driven States Merging) que es ampliamente conocida en la literatura como un heurísico. Dado que la demostración considera también la inferencia de autómatas no deterministas, el resultado abre la puerta al desarrollo de algoritmos convergentes que infieren autómatas no deterministas.
El aspecto experimental de esta investigación propone un conjunto de algoritmos de inferencia gramatical para lenguajes regulares, todos ellos convergentes en el límite. Estos algoritmos surgen de aplicar diferentes variantes de mezcla de estados determinista y no determinista; ellos buscan aprovechar la información que se puede obtener a partir de las relaciones de inclusión entre los lenguajes por la derecha asociados a los estados de todo autómata. Se proponen cuatro algoritmos que hacen mezcla determinista y dos que hacen mezcla no determinista de estados. Los resultados obtenidos al comparar estos nuevos algoritmos con algoritmos de referencia como RPNI, red-blue o DeLeTe2 muestran que se logra disminuir significativamente el tamaño de las hipótesis que se producen, al tiempo que se consiguen tasas de reconocimiento comparables o ligeramente inferiores. También se han obtenido algunas mejoras en la coÁlvarez Vargas, GI. (2007). Estudio de la mezcla de estados determinista y no determinista en el diseño de algoritmos para inferencia gramatical de lenguajes regulares [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1957Palanci
Rational stochastic languages
The goal of the present paper is to provide a systematic and comprehensive
study of rational stochastic languages over a semiring K \in {Q, Q +, R, R+}. A
rational stochastic language is a probability distribution over a free monoid
\Sigma^* which is rational over K, that is which can be generated by a
multiplicity automata with parameters in K. We study the relations between the
classes of rational stochastic languages S rat K (\Sigma). We define the notion
of residual of a stochastic language and we use it to investigate properties of
several subclasses of rational stochastic languages. Lastly, we study the
representation of rational stochastic languages by means of multiplicity
automata.Comment: 35 page
Non-linear optimization methods for learning regular distributions
Algorithms and the Foundations of Software technolog
Using Contextual Representations to Efficiently Learn Context-Free Languages
International audienceWe present a polynomial update time algorithm for the inductive inference of a large class of context-free languages using the paradigm of positive data and a membership oracle. We achieve this result by moving to a novel representation, called Contextual Binary Feature Grammars (CBFGs), which are capable of representing richly structured context-free languages as well as some context sensitive languages. These representations explicitly model the lattice structure of the distribution of a set of substrings and can be inferred using a generalisation of distributional learning. This formalism is an attempt to bridge the gap between simple learnable classes and the sorts of highly expressive representations necessary for linguistic representation: it allows the learnability of a large class of context-free languages, that includes all regular languages and those context-free languages that satisfy two simple constraints. The formalism and the algorithm seem well suited to natural language and in particular to the modeling of first language acquisition. Preliminary experimental results confirm the effectiveness of this approach
LIPIcs, Volume 277, GIScience 2023, Complete Volume
LIPIcs, Volume 277, GIScience 2023, Complete Volum