    Machine Learning Approach for Prediction of the Online User Intention for a Product Purchase

    The deployment of self-learning computer algorithms that can automatically enhance their performance via experience is referred to as machine learning in ecommerce and is a crucial trend of the retail digital transformation. Machine learning algorithms can be unambiguously trained by analysing big datasets, identifying repeating patterns, relationships, and anomalies among all of this data, and creating mathematical models resembling such associations. These models are improved when the algorithms analyse ever-increasing amounts of data, providing us with useful insights into specific ecommerce-related events and the links between all the variables that underlie them. A tool that has been quite effective in studying current affairs, predicting future trends, and making data-driven decisions. The present work investigates the implementation of machine learning algorithms to predict the user intention for purchasing a product on a specific store's website. An Online Shoppers Purchasing Intention data set from the UC Irvine Machine Learning Repository was used for this investigation. In this study, two classification-based machine learning algorithms i.e. Stochastic Gradient Descent (SGD) algorithm and Random Forest algorithm were used. SGD algorithm was used for first time in prediction of the online user intention. The results showed that the Random Forest resulted in the highest F1-Score of 0.90 in contrast to the Stochastic Gradient Descent algorithm

    Analysis of the syntactical structure of web queries

    Дослідження математичного апарату Z-апроксимації функцій для побудови адаптивного алгоритму

    The result of this research is the proposed to mathematical apparatus and a procedure for constructing adaptive algorithm based on Z-approximation of functions. A given study is required to improve approaches to constructing algorithms that change their performance in response to changes in input information. This, in turn, significantly improves results in solving the problems that can be implemented using such an algorithm. For example, solving nonlinear problems, description of complex surfaces, search for information.It has been shown that the solutions derived in the current study are in agreement with the application of the same algorithms for separate groups of functions used for approximation. These functions are used when constructing a direction to search for and provide an opportunity to build a model of error in Z-approximation using the initial or final approximations.The definition of Zm-approximation has been given as the approximation with a multiple interval reduction that simplifies recurrent formulae and is a feature of the presented approach. The proposed methodology and the basic algorithm make it possible to directly determine a series of common and hyperbolic functions using Zm-approximations and parallel computing. Based on the research results, an adaptive algorithm has been presented to calculate arctg x as a function inverse to tg x.The above can be used when constructing an adaptive search algorithm in the arrays of unstructured or poorly structured information. Such a search is employed for books and textbooks, uploaded to the Internet in formats jpeg, pdf, or as fragments of the specified formats. In this case, based on the adaptive algorithm, a special model is constructed, which can be implemented according to several variants with a change in direction.В результате проведенных исследований предложен математический аппарат и методика построения адаптивного алгоритма, основанного на Z-аппроксимации функций. Данные исследования необходимы для совершенствования подходов к построению алгоритмов, которые изменяют свое поведение в зависимости от изменения входной информации. Это, в свою очередь, значительно улучшает результаты выполнения задач, которые могут быть реализованы с помощью такого алгоритма. Например, решение нелинейных задач, описание сложных поверхностей, поиск информации.Показано, что полученные на основе исследований решения, согласовываются с применением одинаковых алгоритмов для отдельных групп функций, используемых для аппроксимации. Эти функции используются при построении направления для поиска и дают возможность разработать модель погрешности Z-аппроксимации с применением начальных или заключительных приближений.Приведено определение Zm-аппроксимации, как аппроксимации с многократным уменьшением интервала, что позволяет упростить рекуррентные формулы и является особенностью представленного подхода. Предложенная методика и базовый алгоритм позволяют непосредственно определять ряд общих и гиперболических функций с использованием Zm-аппроксимаций и параллельных вычислений. По итогам исследований представлен адаптивный алгоритм вычисления arctg x как функции, взаимно обращенной к tg x.Представленное может быть использовано при создании адаптивного алгоритма поиска в массивах неструктурированной и слабо систематизированной информации. Подобный поиск применяется для книг и учебников, которые были выложены в сеть Интернет в форматах jpeg, pdf, или в виде фрагментов указанных форматов. В этом случае на основе адаптивного алгоритма разрабатывается специальная модель, реализация которой может быть выполнена по нескольким вариантам с изменением направления движенияПроведеними дослідженнями запропоновано математичний апарат та методика побудови адаптивного алгоритму, основаного на Z-апроксимації функцій. Це необхідно для вдосконалення підходів до побудови алгоритмів, які змінюють свою поведінку в залежності від зміни вхідної інформації. Зазначене, у свою чергу, значно покращує результати виконання завдання, що реалізуються за допомогою такого алгоритму. Наприклад, рішення нелінійних задач, опис складних поверхонь, пошуку інформації.Показано, що отримані на цьому рішення узгоджуються із застосуванням однакових алгоритмів для окремих груп функцій, які використовуються для апроксимації. Ці функції використовуються при побудові напряму для пошуку та дають можливість розробити модель погрішності Z-апроксимації з використанням початкових або заключних наближень.Наведене визначення Zm-апроксимації, як апроксимації з багатократним зменшенням інтервалу, що призводить до спрощення рекурентних формул і є особливістю представленого підходу. Запропонована методика та базовий алгоритм дозволяють безпосередньо визначати ряд загальних та гіперболічних функцій з використанням Zm-апроксимацій та паралельних обчислень. За підсумками досліджень представлений адаптивний алгоритм обчислення arctg x як функції, що є оберненою до tg x.Представлене може бути використане при створенні адаптивного алгоритму пошуку в масивах неструктурованої та слабо систематизованої інформації. Подібний пошук застосовується для книг та підручників, які були викладені в мережу інтернет у форматах jpeg, pdf, або у вигляді фрагментів обох форматів. У цьому випадку на основі адаптивного алгоритму розробляється спеціальна модель, реалізація якої може бути виконана за декількома варіантами зі зміною напрямів рух

    Anomaly-based network intrusion detection enhancement by prediction threshold adaptation of binary classification models

    Network traffic exhibits a high level of variability over short periods of time. This variability impacts negatively on the performance (accuracy) of anomaly-based network Intrusion Detection Systems (IDS) that are built using predictive models in a batch-learning setup. This thesis investigates how adapting the discriminating threshold of model predictions, specifically to the evaluated traffic, improves the detection rates of these Intrusion Detection models. Specifically, this thesis studied the adaptability features of three well known Machine Learning algorithms: C5.0, Random Forest, and Support Vector Machine. The ability of these algorithms to adapt their prediction thresholds was assessed and analysed under different scenarios that simulated real world settings using the prospective sampling approach. A new dataset (STA2018) was generated for this thesis and used for the analysis. This thesis has demonstrated empirically the importance of threshold adaptation in improving the accuracy of detection models when training and evaluation (test) traffic have different statistical properties. Further investigation was undertaken to analyse the effects of feature selection and data balancing processes on a model’s accuracy when evaluation traffic with different significant features were used. The effects of threshold adaptation on reducing the accuracy degradation of these models was statistically analysed. The results showed that, of the three compared algorithms, Random Forest was the most adaptable and had the highest detection rates. This thesis then extended the analysis to apply threshold adaptation on sampled traffic subsets, by using different sample sizes, sampling strategies and label error rates. This investigation showed the robustness of the Random Forest algorithm in identifying the best threshold. The Random Forest algorithm only needed a sample that was 0.05% of the original evaluation traffic to identify a discriminating threshold with an overall accuracy rate of nearly 90% of the optimal threshold."This research was supported and funded by the Government of the Sultanate of Oman represented by the Ministry of Higher Education and the Sultan Qaboos University." -- p. i

    Hábitos de recuperación de información en motores de búsqueda sobre lectura, libro y bibliotecas en España (2004-2016)

    Este estudio ha tenido como objetivo principal, determinar si los procesos y expresiones de búsqueda de información usados por los usuarios en motores de búsqueda, pueden considerarse como indicadores válidos para el análisis y estudio de los hábitos de lectura y posible interés en otros contenidos ofrecidos por las bibliotecas en España (como videojuegos o películas).Para ello se propone un modelo de análisis con el que caracterizar el lenguaje de búsqueda de información de los usuarios de internet que utilizan Google desde España como motor de búsqueda, durante el período 2004 - 2016, al recuperar información sobre la temática de el libro, la lectura y las bibliotecas, desde una perspectiva histórica. De esta forma, se pretende aportar otra dimensión de análisis a los estudios que hay sobre los hábitos lectores en general, y en España en particular.La investigación tiene distintas áreas de aplicación del análisis del lector online, como son el apoyo a la indización y la clasificación bibliotecaria, la evaluación de colecciones y evaluación de la biblioteca, los estudios de necesidades de usuarios, la evaluación de OPACs, la analítica digital de sedes web bibliotecarias o de entidades de la industria del libro como editoriales, librerías online, metabuscadores o páginas web de autores y aficionados a la literatura en general, márketing bibliotecario y promoción de la lectura, márketing editorial, altmetría y Cibermetría, y SEO (posicionamiento en buscadores).El análisis de los hábitos lectores tiene una larga tradición en el mundo offline, especialmente en España, donde el estudio de hábitos lectores es parte importante de la investigación estratégica en la industria del libro. Se han observado distintas metodologías, desde las encuestas y entrevistas a lectores y no lectores, el análisis de las ventas de los libros y la prensa, a los análisis de logs de préstamos en las bibliotecas. Al entrar la lectura en e-book, y en plena era de internet, la lectura en papel ha sufrido una transformación, donde los usuarios leen por internet, y buscan su lectura (ya sea online, en e-book y/o en papel) a través de internet, especialmente utilizando motores de búsqueda, de los que en España el más utilizado desde principios de siglo hasta al menos su segunda década, es el buscador Google. Es este cambio en las formas de localizar la lectura la que impulsa a investigar cómo se busca información sobre lectura en un buscador. Anteriormente se han investigado distintos aspectos de esas conductas con distintas técnicas, dentro del paradigma cognitivo, y especialmente dentro de la disciplina de Information Seeking, de difícil traducción al castellano. Tras consignar modelos de búsqueda por parte de los usuarios, como el modelo Berrypicking de Marcia Bates, el modelo de Ellis, el modelo de Marchionini, o el modelo de Information Search Process de Kulthau, entre otros, se han estudiado otros modificadores de las conductas de búsqueda, llegando a los estudios sobre User Search Behaviour (conductas de búsqueda de los usuarios en motores de búsqueda) especialmente en lo concerniente a desambiguación y expansión de búsquedas, análisis longitudinal de la búsqueda y de Query Intent, el Análisis de la Intención de Búsqueda. Es precísamente en la combinación de las últimas subdisciplinas hacia donde se ha orientado este estudio. Para la investigación, en 2010 se obtuvieron de Google Keywords Planner, el log de búsquedas del motor de búsqueda, más de 30.000 expresiones de búsqueda (denominadas también como frases de búsqueda, queries, keywords o palabras clave), relacionadas con el libro, la lectura y las bibliotecas, segmentando la búsqueda de palabras clave en lenguaje español y de búsquedas realizadas desde España. Posteriormente se extrajo de Google Trends la serie de datos histórica de 2004 a 2016, para conformar un dataset con el que realizar un análisis longitudinal. Las palabras clave fueron clasificadas en 27 facetas distintas de intención de búsqueda, contando también con aspectos modificadores y aspectos lingüísticos. Por tanto, no se clasificó en categorías mutuamente excluyentes, sino de forma que una expresión de búsqueda pudiera pertenecer a varias clases simultáneamente, por lo que se realizó un estudio del grado de co-ocurrencia entre las distintas facetas y los aspectos identificados. Posteriormente se dividió las palabras clave, previamente clasificadas, en una nueva dimensión de análisis, según si era atemporales (tenían una larga vida en la serie histórica) o temporales, aquellas que nacían en algún momento de la serie, y tenían una vida más o menos corta. Como resultado del análisis, se han estudiado las posibilidades de la facetación como mejora o complemento de otras técnicas de análisis de las intenciones de búsqueda (query intent analysis); se ha validado el modelo de estudio, de forma que sirva como corpus inicial de futuros análisis de los hábitos de lectura en España, a través del estudio de la demanda de información en motores de búsqueda; se han descubierto subtipos de intenciones de búsqueda propias del sector de la lectura, dentro de las clasificaciones clásicas de intención de búsqueda (navegacional, informacional, transaccional); se han identificado facetas adicionales, distintas a las meramente temáticas, como modificadores y características del lenguaje, que sirvan para completar las facetas halladas desde una dimensión de análisis complementaria; se ha descubierto distintos patrones de uso, nuevas abreviaturas y formas de expresión de las necesidades de búsqueda de los usuarios mediante lenguaje natural, se han relacionado distintos media y/o formatos, así como, tras una selección mediante una muestra intencionada, de distintos ejemplos paradigmáticos de estas tendencias de búsqueda y sus posibles relaciones causales, observando los efectos producidos en la evolución de la demanda de información en torno a la lectura a través de la búsqueda de la misma en Google en España, durante el período 2004-2016.Finalmente, y además de constatar su utilidad para completar otras técnicas de análisis de los hábitos lectores mediante una técnica inédita hasta la fecha en el sector del libro y bibliotecas, se ha observado cómo la demanda de información sobre lectura en España realizada a través de motores de búsqueda, ha decaído de forma paulatina en la segunda década del siglo XXI, coincidiendo con otras investigaciones y datos de estudios de hábitos lectores realizadas a través de otras técnicas. <br /