9 research outputs found

    Distance-based kernels for real-valued data

    Get PDF
    We consider distance-based similarity measures for real-valued vectors of interest in kernel-based machine learning algorithms. In particular, a truncated Euclidean similarity measure and a self-normalized similarity measure related to the Canberra distance. It is proved that they are positive semi-definite (p.s.d.), thus facilitating their use in kernel-based methods, like the Support Vector Machine, a very popular machine learning tool. These kernels may be better suited than standard kernels (like the RBF) in certain situations, that are described in the paper. Some rather general results concerning positivity properties are presented in detail as well as some interesting ways of proving the p.s.d. property.Peer ReviewedPostprint (author's final draft

    Drum Groove Corpora

    Get PDF
    Patterned microtiming deviations from metronomic regularity are ubiquitous in the performance of metered music. The relevance of microtiming to the perception of music has been studied since the 1980s. Most recently, microtiming has been investigated as a cause of groove (i.e., the pleasant urge to move in response to music). The study of microtiming relies on the availability of microtiming data. This report presents three large corpora of onset timings derived from drum kit performances in popular Anglo-American popular music styles. These data are made freely available (CC 4.0 license) to provide a resource for use by analysts and experimenters alike. They offer a common point of reference for future studies into the temporal facets of music performance. The datasets adhere to FAIR principles; they thus facilitate replication of analyses and experimental stimuli

    Métodos de la dialectología cuantitativa

    Get PDF
    La introducción de la cuantificación de la variación geolingüística ha traído consigo un espectacular auge de las publicaciones sobre la materia, que indican una renovada vitalidad de la disciplina. Uno de los mayores avances de la dialectología del siglo pasado, la dialectometría, se ha convertido en una realidad en prácticamente todas las lenguas cultivadas (Goebl 1992; Nerbonne 2013). La variedad de técnicas cuantitativas utilizadas en la dialectología pone al alcance de los investigadores un amplio abanico de posibilidades de analizar los datos dialectales. Pero todo análisis cuantitativo necesita de una base de datos amplia que aleja al dialectólogo de las prácticas del denominado (single) feature based dialectología, ganando en la objetividad de la muestra del análisis. En este trabajo se presentan los pasos que hay que seguir para desarrollar una investigación en dialectología cuantitativa. Además, se exponen algunas de las técnicas utilizadas, como las destinadas a la cuantificación de la distancia entre variedades, a la clasificación jerárquica, y/o al análisis del continuum dialectal. Así mismo, también se exponen métodos multivariantes para la identificación de patrones de variación, estudio de las variables que presentan similares patrones geográficos, analizar la probabilidad de pertenencia a determinados grupos dialectales, etc. La metodología de la dialectología cuantitativa se halla delimitada por los siguientes pasos: elección de un atlas lingüístico del que se proveerá su base de datos (que puede ser fonética, ortográfica o/y etiquetada), aplicación de una medida de distancia que proporciona una matriz de distancias y el uso de técnicas cuantitativas aplicadas a la matriz de distancias. La cuantificación se ha convertido en un paso obligatorio para expertos que se dedican al estudio de la variación lingüística.The introduction of the quantification of geolinguistic variation has brought a spectacular rise in publications on the subject, which indicate a renewed vitality of the discipline. One of the greatest advances in dialectology of the last century, dialectometry, has become a reality in practically all cultivated languages (Goebl 1992; Nerbonne 2013). The variety of quantitative techniques used in dialectometry offers researchers a wide range of possibilities for analyzing dialectical data. But any quantitative analysis needs a broad database that distances the dialectologist from the practices of the so-called '(single) feature based' dialectology, gaining in the objectivity of the analysis sample. The methodology of quantitative dialectology begins with the choice of a linguistic atlas from which its database will be provided (which can be phonetic, orthographic or/and labeled). The application of a distance measurement provides the distance matrix. The quantitative techniques applied to the distance matrix range from the quantification of the distance between dialectal varieties (interpunctual dialectometry), the hierarchicalclassification of dialectal varieties, the analysis of the dialectal continuum (with the technique of multidimensional scaling (MDS), the analysis of the correlation between geographical and linguistic distance, the detection of linguistic characteristics, etc. Quantification has become a mandatory step for experts who study linguistic variation

    Métodos de la dialectología cuantitativa

    Get PDF
    The introduction of the quantification of geolinguistic variation has brought a spectacular rise in publications on the subject, which indicate a renewed vitality of the discipline. One of the greatest advances in dialectology of the last century, dialectometry, has become a reality in practically all cultivated languages (Goebl 1992; Nerbonne 2013). The variety of quantitative techniques used in dialectometry offers researchers a wide range of possibilities for analyzing dialectical data. But any quantitative analysis needs a broad database that distances the dialectologist from the practices of the so-called '(single) feature based' dialectology, gaining in the objectivity of the analysis sample. The methodology of quantitative dialectology begins with the choice of a linguistic atlas from which its database will be provided (which can be phonetic, orthographic or/and labeled). The application of a distance measurement provides the distance matrix. The quantitative techniques applied to the distance matrix range from the quantification of the distance between dialectal varieties (interpunctual dialectometry), the hierarchical classification of dialectal varieties, the analysis of the dialectal continuum (with the technique of multidimensional scaling (MDS), the analysis of the correlation between geographical and linguistic distance, the detection of linguistic characteristics, etc. Quantification has become a mandatory step for experts who study linguistic variation.La introducción de la cuantificación de la variación geolingüística ha traído consigo un espectacular auge de las publicaciones sobre la materia, que indican una renovada vitalidad de la disciplina. Uno de los mayores avances de la dialectología del siglo pasado, la dialectometría, se ha convertido en una realidad en prácticamente todas las lenguas cultivadas (Goebl 1992; Nerbonne 2013). La variedad de técnicas cuantitativas utilizadas en la dialectología pone al alcance de los investigadores un amplio abanico de posibilidades de analizar los datos dialectales. Pero todo análisis cuantitativo necesita de una base de datos amplia que aleja al dialectólogo de las prácticas del denominado (single) feature based dialectología, ganando en la objetividad de la muestra del análisis. En este trabajo se presentan los pasos que hay que seguir para desarrollar una investigación en dialectología cuantitativa. Además, se exponen algunas de las técnicas utilizadas, como las destinadas a la cuantificación de la distancia entre variedades, a la clasificación jerárquica, y/o al análisis del continuum dialectal. Así mismo, también se exponen métodos multivariantes para la identificación de patrones de variación, estudio de las variables que presentan similares patrones geográficos, analizar la probabilidad de pertenencia a determinados grupos dialectales, etc. La metodología de la dialectología cuantitativa se halla delimitada por los siguientes pasos: elección de un atlas lingüístico del que se proveerá su base de datos (que puede ser fonética, ortográfica o/y etiquetada), aplicación de una medida de distancia que proporciona una matriz de distancias y el uso de técnicas cuantitativas aplicadas a la matriz de distancias. La cuantificación se ha convertido en un paso obligatorio para expertos que se dedican al estudio de la variación lingüística

    Моделі і методи прогнозування вулканічної активності з використанням технології штучного інтелекту

    Get PDF
    В дисертації вперше отримані такі нові наукові результати: 1. Вперше розроблено метод селекції інформативних змінних, якийвідрізняється тим що використовує результати роботи системи прогнозуваннядля ітеративного поліпшення змінних які вибираються. 2. Вдосконалено ітеративний метод зменшення розмірності наоснові методу Isomap який відрізняється тим що використовує зворотнійзв’язок з перевірочної системою, який дозволяє досягти високоїінформативності змінних. 3. Удосконалена задача багатокритеріального вибору, якавідрізняється тим, що для вибору змінних використовуються рівні довіри,експертна оцінка значимості, для підвищення точності моделі. 4. Розроблено новий генетичний алгоритм для генеруванняальтернатив при формуванні прогнозу, який відрізняється від існуючих,використанням спеціального полінома, який зв’язує всі вхідні змінні тадозволяє розкрити приховані взаємозв'язки всередині змінних. Розроблено новий метод селекції інформаційних змінних який відрізняється від існуючих можливістю ефективно обробляти велику кількість вхідних даних різної сутності, завдяки наявності декількох незалежних частин відбору. Розроблено систему прогнозування. На вхід в систему подаються різні вулканічні показники, за якими буде відбуватися прогнозування шуканих величин. На етапі автоматичної корекції даних відбувається нормалізація дані, їх регуляризація і інтерполяція, якщо в цьому є необхідність. Система робить вибір змінних використовуючи кореляційний аналіз, регресійний аналіз і ітеративний метод зменшення розмірності. Які проходять рейтинговий багатокритерійний вибір. Після багатокритеріального вибору отримані змінні проходять фазифікацію, яка була описана в цьому розділі, для більш точного побудови моделі. Використовуючи нечіткі дані відбувається навчання LSTM нечіткої мережі на випадково обраному часовому відрізку вхідних даних, тоді як решта даних буде використовуватися як перевірочна вибірка. Після навчання моделі, відбувається дефазифікація даних, і перевірка моделі на перевірочної вибірці. Якщо отриманий результат відповідає заданому критерію точності, то отримана модель є оптимальною, інакше починається нова ітерація з використанням ітеративного методу зменшення розмірності. Безпосереднє практичне значення результатів, отриманих у ході дисертаційного дослідження, полягає в тому, що: 1. Розроблена система прогнозування вулканічної активності яка використовує ітеративний вибір змінних, яка може використовуватись для прогнозування не тільки вулканічної активності, але для прогнозування інших природних явищ, зокрема землетрусів. 2. Розроблено генетичний алгоритм прогнозування вулканічної активності, що може прогнозувати декілька альтернативних прогнозів. 3. Досягнута висока точність прогнозування в порівнянні з існуючими методами зменшення розмірності при роботі з вулканічною активністю завдяки модифікованому метод зменшення розмірності Isomap. 4. Збільшена точність прогнозування завдяки покращеній селекції інформаційних змінних і модифікованій задачі багатокритеріального вибору. Були проведені експериментальні дослідження системи прогнозування і порівняльний аналіз з існуючими аналогами, де було показано перевагу розробленої системи прогнозування над ними. Проведені експериментальні дослідження системи прогнозування і порівняльний аналіз з існуючими аналогами, де було показано перевагу розробленої системи прогнозування над ними. Так система прогнозування виявилася кращою в середньому на 50% ніж множинна регресія, на 38% ніж мережа Байєса. Проведено аналіз системи прогнозування до зашумлення даних і його вплив на вибір змінних. Проведено аналіз отриманих популяцій генетичного алгоритму і їх полиномів і доведена ефективність поліноміального полінома, яка збільшила точність прогнозування особин в популяціях в середньому на 5%. Проведено порівняльний аналіз існуючих методів прогнозування часових рядів. Так генетичний алгоритм виявився в середньому краще на 6% ніж VAR, і на 20% ніж множинна регресія.In the dissertation the following new scientific results were first received: 1. A method of variable selection was developed for the first time, characterized in that it uses the results of the forecasting system to iteratively improve the selected variables. 2. Improved iterative method of reducing the dimension based on the method of Isomap, which differs in that it uses feedback from the test system, which allows to achieve high informativeness of variables. 3. Improved multi-criteria selection task, characterized in that the selection of variables uses levels of confidence, expert assessment of significance, to improve the accuracy of the model. 4. A new genetic algorithm has been developed to generate alternatives in the formation of a forecast that differs from the existing ones, using a special polynomial that connects all input variables and allows to reveal hidden relationships within variables. A forecasting system was developed. Various volcanic indicators are put forward to the system, according to which the required values will be predicted. At the stage of automatic data correction, the data is normalized, regularized, and interpolated, if necessary. The system then selects variables using correlation analysis, regression analysis and an iterative dimensionality reduction method. Further passing the multi-criteria rating choice. After multicriteria selection, the resulting variables are subjected to the facetization described in this section for more accurate model construction. Further, using fuzzy data, the LSTM fuzzy network is trained on a randomly selected time slice of input, while the rest of the data will be used as a test sample. After training the model, the data defuzzied and the model is validated on a test sample. If the obtained result meets the specified accuracy criterion, then the obtained model is optimal, otherwise a new iteration begins using an iterative dimensionality reduction method. The immediate practical significance of the results obtained during the dissertation research is that: 1. System was developed for predicting volcanic activity that uses iterative selection of variables, which can be used to predict not only volcanic activity, but to predict other natural phenomena, including earthquakes. 2. An evolutionary algorithm for predicting volcanic activity has been developed, which can create several alternative forecasts. 3. Achieved high forecasting accuracy compared to existing methods of dimension reduction when working with volcanic activity due to the modified method of dimension reduction of Isomap. 4. Increased forecasting accuracy due to improved selection of information variables and modified multicriteria selection problem. Experimental studies of the forecasting system and comparative analysis with existing analogues, which showed the advantage of the developed forecasting system over them. Thus, the prediction system was better by an average of 50% than linear regression, 38% better than the Bayesian network. The analysis of the forecasting system before data noise and its influence on the choice of variables is carried out. The analysis of the received populations of the evolutionary algorithm and their polynomials was carried out and efficiency of the polynomial which has increased accuracy of forecasting of individuals in populations on the average by 5%. A comparative analysis was done of existing methods of forecasting time series. Thus, the evolutionary algorithm turned out to be on average 6% better than VAR, and 20% better than linear regression

    Intelligent instance selection techniques for support vector machine speed optimization with application to e-fraud detection.

    Get PDF
    Doctor of Philosophy in Computer Science. University of KwaZulu-Natal, Durban 2017.Decision-making is a very important aspect of many businesses. There are grievous penalties involved in wrong decisions, including financial loss, damage of company reputation and reduction in company productivity. Hence, it is of dire importance that managers make the right decisions. Machine Learning (ML) simplifies the process of decision making: it helps to discover useful patterns from historical data, which can be used for meaningful decision-making. The ability to make strategic and meaningful decisions is dependent on the reliability of data. Currently, many organizations are overwhelmed with vast amounts of data, and unfortunately, ML algorithms cannot effectively handle large datasets. This thesis therefore proposes seven filter-based and five wrapper-based intelligent instance selection techniques for optimizing the speed and predictive accuracy of ML algorithms, with a particular focus on Support Vector Machine (SVM). Also, this thesis proposes a novel fitness function for instance selection. The primary difference between the filter-based and wrapper-based technique is in their method of selection. The filter-based techniques utilizes the proposed fitness function for selection, while the wrapper-based technique utilizes SVM algorithm for selection. The proposed techniques are obtained by fusing SVM algorithm with the following Nature Inspired algorithms: flower pollination algorithm, social spider algorithm, firefly algorithm, cuckoo search algorithm and bat algorithm. Also, two of the filter-based techniques are boundary detection algorithms, inspired by edge detection in image processing and edge selection in ant colony optimization. Two different sets of experiments were performed in order to evaluate the performance of the proposed techniques (wrapper-based and filter-based). All experiments were performed on four datasets containing three popular e-fraud types: credit card fraud, email spam and phishing email. In addition, experiments were performed on 20 datasets provided by the well-known UCI data repository. The results show that the proposed filter-based techniques excellently improved SVM training speed in 100% (24 out of 24) of the datasets used for evaluation, without significantly affecting SVM classification quality. Moreover, experimental results also show that the wrapper-based techniques consistently improved SVM predictive accuracy in 78% (18 out of 23) of the datasets used for evaluation and simultaneously improved SVM training speed in all cases. Furthermore, two different statistical tests were conducted to further validate the credibility of the results: Freidman’s test and Holm’s post-hoc test. The statistical test results reveal that the proposed filter-based and wrapper-based techniques are significantly faster, compared to standard SVM and some existing instance selection techniques, in all cases. Moreover, statistical test results also reveal that Cuckoo Search Instance Selection Algorithm outperform all the proposed techniques, in terms of speed. Overall, the proposed techniques have proven to be fast and accurate ML-based e-fraud detection techniques, with improved training speed, predictive accuracy and storage reduction. In real life application, such as video surveillance and intrusion detection systems, that require a classifier to be trained very quickly for speedy classification of new target concepts, the filter-based techniques provide the best solutions; while the wrapper-based techniques are better suited for applications, such as email filters, that are very sensitive to slight changes in predictive accuracy

    PRODUCTION ET CIRCULATION DU FER EN LORRAINE (VIe s. av. J.-C. - XVe s. ap. J.-C.)

    Get PDF
    Lorraine was, during the 19th and 20th c., one of the most important ironmaking areas worldwide, relying on the use of a sedimentary ore, the Minette lorraine. Paradoxically, it has long been thought that no iron was produced using this ore before the modern era. A research program initiated 25 years ago totally renewed our perception of its metallurgical history. Production activities were indeed sporadically performed since the Iron Age, before drastically increasing during medieval times. Research performed allows a first apprehension of the ironmaking activities’ forms in Lorraine and their evolution through successive periods, put into perspective in the European context. Iron trade and circulation remain however largely unknown, due to the lack of historical sources. A first insight of the trade networks relative to iron products extending throughout Lorraine and its fringes is exposed in this thesis, contributing to the perception of the use of iron in different periods.A methodology recently developed by the Laboratoire Métallurgies et Cultures and Laboratoire Archéomatériaux et Prévision de l’Altération, relying on the chemical characterization of smelting slags and slag inclusions entrapped in the iron products, was employed to that purpose. This interdisciplinary work also offers new developments in the multivariate statistical treatment of chemical information, and contributes to answering the issues raised at the beginning of this work.A geochemical reference set, comprised of a pre-existing database and new information gathered on archaeological surveys performed during this work, was set up. It provides a new perception of the chemical diversity characterizing iron smelting activities within Lorraine and its fringes. Geochemical production sets were emphasized in doing so. Several iron consumption contexts were then considered, offering the possibility of shedding light on iron spreading networks during ancient times in Lorraine. A statistical approach, relying on the use of both descriptive statistical analyses and predictive modelling, was applied to that purpose. It was beforehand tested by studies performed on workshops for which the use of a given ore is attested by archaeological records.Results allow enlightening, sometimes against formerly formulated hypotheses, the practices in terms of the iron’s trade through different periods, facing our current knowledge about iron production modes. Benefiting from newly gathered information, discussions about the role played by ironworking activities among ancient societies are initiated.L’espace lorrain a connu, au cours des XIXe et XXe s., une intense activité sidérurgique reposant sur la réduction d’un minerai sédimentaire, la Minette lorraine. Paradoxalement, on a longtemps considéré qu’aucune activité de production liée à l’exploitation de ce minerai n’avait pris place dans cette région avant l’époque contemporaine. Un programme de recherche initié il y a 25 ans a par ailleurs totalement renouvelé la perception de l’histoire sidérurgique de cet espace. Les activités de production s’y sont déroulées de manière sporadique dès les âges du Fer, avant de prendre de l’ampleur au cours de la période médiévale. Les recherches menées permettent une première appréhension de l’évolution des modes de production du fer en Lorraine à différentes époques, mises en perspective dans leur contexte européen. Toutefois, les modalités de distribution du métal produit restent largement méconnues, du fait de l’indigence relative des sources historiques à cet égard. Une première perception des circuits de distribution du fer se développant au sein de l’espace lorrain est exposée dans ce mémoire, contribuant à l’appréhension des usages du fer à différentes époques.Une méthodologie développée récemment par le Laboratoire Métallurgies et Cultures et le Laboratoire Archéomatériaux et Prévision de l’Altération, reposant sur la caractérisation chimique des déchets associés à la réduction du minerai et des inclusions présentes dans les produits sidérurgiques, a été employée dans ce but. Ce travail interdisciplinaire propose par ailleurs de nouveaux développements en termes de traitement statistique multivarié de l’information chimique, contribuant ainsi à répondre aux problématiques développées.Un référentiel géochimique, constitué d’une base de données préexistante et d’informations nouvelles acquises à l’occasion de prospections archéologiques, offre une perception nouvelle de la diversité chimique caractérisant les activités sidérurgiques anciennes au sein de l’espace lorrain et de ses marges. Des ensembles géochimiques de production ont ainsi été mis en évidence. Plusieurs contextes de consommation ont ensuite été considérés, offrant un éclairage sur les circuits de distribution du fer aux époques anciennes en Lorraine. Une démarche statistique, reposant sur l’emploi d’analyses descriptives et de modèles prédictifs, a été appliquée en ce sens, après avoir été éprouvée par l’étude d’ateliers sidérurgiques pour lesquels l’utilisation d’un minerai en particulier est assurée par le contexte archéologique.Les résultats obtenus permettent de préciser, parfois à l’encontre des hypothèses formulées au préalable, les pratiques d’échange du fer à différentes époques, en regard de nos connaissances quant aux modes de production sidérurgiques. Des discussions portant sur le rôle joué par le travail du fer au sein des sociétés anciennes sont initiées à la lumière des informations nouvellement acquises
    corecore