    Tracer Study adalah salah satu pelacakan jejak kepada alumni yang umum dilakukan program studi di perguruan tinggi sebagai upaya dalam memperbaiki kualitas penyelenggaraan pendidikan. Terdapat beberapa kuesioner yang ditujukan kepada alumni, namun tanggapan sebagai umpan balik yang diberikan alumni masih terbilang cukup rendah. Penelitian ini bertujuan mengoptimalkan program tracer study yang dilakukan dengan cara mengelompokkan profil pekerjaan alumni agar dapat disesuaikan dengan kebutuhan penyebaran kuesioner. Metode yang digunakan dalam pengelompokkan profil pekerjaan alumni adalah clustering yang dalam penelitian ini menggunakan algoritma K-Means. Hasil dari penelitian ini adalah cluster-cluster profil pekerjaan alumni yang setiap anggota dalam cluster yang sama memiliki kriteria pekerjaan yang mirip.------------- Tracer Study is one of methods used in university to track their alumnus’ traces as an approach to improve the quality of their education management. There exist a few questionnaires aimed at the alumnus, but responses the alumnus given are still quite lacking. This research focused on optimizing tracer study program by separating alumnus’ work profiles into parts so it could suit distribution of the questionnaire. Method used to group the alumnus work profiles is clustering with the help of K Means algorithm. The aforementioned research resulting in clusters of alumnus’ work profiles in which each member of the same cluster has similar work characteristics

    A Novel Approach for Clustering Big Data based on MapReduce

    Clustering is one of the most important applications of data mining. It has attracted attention of researchers in statistics and machine learning. It is used in many applications like information retrieval, image processing and social network analytics etc. It helps the user to understand the similarity and dissimilarity between objects. Cluster analysis makes the users understand complex and large data sets more clearly. There are different types of clustering algorithms analyzed by various researchers. Kmeans is the most popular partitioning based algorithm as it provides good results because of accurate calculation on numerical data. But Kmeans give good results for numerical data only. Big data is combination of numerical and categorical data. Kprototype algorithm is used to deal with numerical as well as categorical data. Kprototype combines the distance calculated from numeric and categorical data. With the growth of data due to social networking websites, business transactions, scientific calculation etc., there is vast collection of structured, semi-structured and unstructured data. So, there is need of optimization of Kprototype so that these varieties of data can be analyzed efficiently.In this work, Kprototype algorithm is implemented on MapReduce in this paper. Experiments have proved that Kprototype implemented on Mapreduce gives better performance gain on multiple nodes as compared to single node. CPU execution time and speedup are used as evaluation metrics for comparison.Intellegent splitter is proposed in this paper which splits mixed big data into numerical and categorical data. Comparison with traditional algorithms proves that proposed algorithm works better for large scale of data

    Medoid-based shadow value validation and visualization

    A silhouette index is a well-known measure of an internal criteria validation for the clustering algorithm results. While it is a medoid-based validation index, a centroid-based validation index that is called a centroid-based shadow value (CSV) has been developed.  Although both are similar, the CSV has an additional unique property where an image of a 2-dimensional neighborhood graph is possible. A new internal validation index is proposed in this article in order to create a medoid-based validation that has an ability to visualize the results in a 2-dimensional plot. The proposed index behaves similarly to the silhouette index and produces a network visualization, which is comparable to the neighborhood graph of the CSV. The network visualization has a multiplicative parameter (c) to adjust its edges visibility. Due to the medoid-based, in addition, it is more an appropriate visualization technique for any type of data than a neighborhood graph of the CSV

    Clustering Mixed Numeric and Categorical Data with Cuckoo Search

    Automatic cluster analysis

    ilustraciones, gráficas, tablasEn este documento se desarrolla el proceso de software de análisis de clúster automático, aunque en la actualidad, existen varias librerías que permiten realizar análisis de clúster, se busca automatizar el proceso y lograr diferentes opciones centralizadas en un mismo paquete; facilitando el análisis y la parametrización de los modelos. Para su elaboración, se utilizaron las librerías ya existentes en Python, tomando como base lo que se tiene en diferentes herramientas y software estadístico o de análisis de datos, de manera que se puedan usar tanto por una persona con conocimientos básicos como por una persona con conocimientos profundos que quiera parametrizar sus análisis. Los resultados de este trabajo muestran que es posible facilitar los procesos de agrupamiento y su respectivo análisis de datos a través de los algoritmos actuales, guiando al usuario de manera simple, gráfica, intuitiva en todo el proceso, llevando a concluir que los resultados del análisis de clúster se ve sujeto a la subjetividad o a los conocimientos del usuario sin embargo esta subjetividad es posible reducirla a través de estrategias, técnicas, análisis y el buen uso de las herramientas existentes. (Texto tomado de la fuente)In this document the automatic cluster analysis software process is developed, although at present, there are several libraries that allow cluster analysis to be carried out. The aim is to automate the process and achieve different centralized options in the same package, facilitating the analysis and parameterization of the models. For its preparation, existing libraries in python were used, taking as a basis what is available in statistical tools and software or data analysis, so that they can be used both by a person with basic knowledge and by a person with knowledge, that you want to parameterize your analysis. The results of this process show that it is possible to facilitate the grouping results and their respective data analysis through current algorithms, guiding the user in a simple, graphical, intuitive way throughout the process, leading to the conclusion that the results of the analysis Clustering is subject to subjectivity or user knowledge, however this subjectivity can be reduced through strategies, techniques, analysis and the proper use of existing tools.MaestríaMagíster en Ingeniería - AnalíticaAnálisis de clústerDocumento con detalle de funcionamiento de softwareÁrea Curricular de Ingeniería de Sistemas e Informátic

    Marketing de Influencers en Instagram: un framework para encontrar la mejor estrategia de marketing basado en clustering, influencers de distinto tamaño y encaje entre producto-sponsor

    A partir del surgimiento de las redes sociales, las compañías han lentamente abandonado las formas tradicionales de promocionar sus productos y servicios, para dar lugar a una nueva forma de hacer marketing: el llamado Marketing de Influencers. Este se basa en utilizar a los influencers de las redes sociales (nuevas “celebridades” en Internet) para que estos “sponsoreen” los productos de las empresas o marcas a través de sus publicaciones, que son visitadas por millones de usuarios. No obstante, esta reciente estrategia de marketing online plantea una nueva problemática para las empresas, relacionada con la selección de los mejores influencers para promocionar sus productos de manera que se generen mayores ganancias para las firmas. Dado que la literatura sobre esta temática es diversa y no sugiere una estrategia definitiva a seguir por las compañías, el presente estudio propone un conjunto de herramientas analíticas que puedan servirle a éstas al momento de enfrentarse al problema principal del Marketing de Influencers. Particularmente, se sugiere la utilización de algoritmos de clustering sobre los datos de los influencers actuales para encontrar patrones que los caractericen y el posterior uso de estos resultados para llevar a cabo experimentos controlados que ayuden a comprender cómo influyen distintas características de los influencers sobre el comportamiento de los consumidores. De esta forma, gracias a la base de datos de influencers de Instagram provista por la compañía Upfluence, corrimos el algoritmo de k-prototypes para formar grupos de influencers e identificar sus características representativas. A partir de estos resultados, creamos perfiles de influencers ficticios de Instagram con el objetivo de realizar un experimento (N=213) que analice el impacto de la popularidad del influencer y el encaje que tenga con el producto sobre la disposición a comprar, pagar por el producto y la disposición a recomendar y a republicar el contenido del influencer. De la etapa de clustering, concluimos que la cantidad de seguidores (sinónimo de popularidad), es una de las variables más influyentes al momento de identificar distintos grupos de influencers, mientras que de la etapa experimental, concluimos que la cantidad de seguidores del influencer, en conjunto con el encaje con el producto sponsoreado, parecen tener un impacto muy significativo sobre la disposición a comprar, pagar y republicar del seguidor. En conclusión, esta investigación no solo puede considerarse como el primer intento de combinar un análisis de clustering (técnica de Machine Learning) con experimentos (método de investigación en Marketing), sino que también propone que las compañías tengan en cuenta la popularidad del influencer y su relación con el producto que se quiera publicitar para tomar la mejor decisión de marketing online

    Text Classification of installation Support Contract Topic Models for Category Management

    Air Force Installation Contracting Agency manages nearly 18 percent of total Air Force spend, equating to approximately 57 billion dollars. To improve strategic sourcing, the organization is beginning to categorize installation-support spend and assign accountable portfolio managers to respective spend categories. A critical task in this new strategic environment includes the appropriate categorization of Air Force contracts into newly created, manageable spend categories. It has been recognized that current composite categories have the opportunity to be further distinguished into sub-categories leveraging text analytics on the contract descriptions. Furthermore, upon establishing newly constructed categories, future contracts must be classified into these newly constructed categories in order to be strategically managed. This research proposes a methodological framework for using Latent Dirichlet Allocation to sculpt categories from the natural distribution of contract topics, and assesses the appropriateness of supervised learning classification algorithms such as Support Vector Machines, Random Forests, and Weighted K-Nearest Neighbors models to classify future unseen contracts. The results suggest a significant improvement in modeled spend categories over the existing categories, facilitating more accurate classification of unseen contracts into their respective sub-categories

    Marketing de Influencers en Instagram : Un framework para encontrar la mejor estrategia de marketing basado en algoritmos de clustering de influencers y similitud con el público objetivo

    A partir del nacimiento de las redes sociales, las compañías han lentamente abandonado las formas tradicionales de promocionar sus productos y servicios, para dar lugar a una nueva forma de hacer marketing: el llamado Marketing de Influencers. Este se basa en utilizar a los influencers de las redes sociales (nuevas “celebridades” en Internet) para que estos publiciten los productos de las empresas o marcas a través de sus publicaciones visitadas por millones de usuarios. No obstante, esta reciente estrategia de marketing online plantea una nueva problemática para las empresas, relacionada con la selección de los mejores influencers para promocionar los productos de manera exitosa, generando ganancias a las firmas. Dado que la literatura sobre esta temática es diversa y no sugiere una estrategia definitiva a seguir por las compañías, el presente estudio propone un conjunto de herramientas analíticas que puedan servirle a estas al momento de enfrentarse al problema principal del Marketing de Influencers. Particularmente, se sugiere la utilización de algoritmos de clustering sobre los datos de los influencers actuales para encontrar patrones que los caractericen y el posterior uso de estos resultados para llevar a cabo experimentos controlados que ayuden a comprender cómo influyen distintas características de los influencers sobre el comportamiento de los consumidores. De esta forma, gracias a la base de datos de influencers de Instagram provista por la compañía Upfluence, corrimos el algoritmo de k -prototypes para formar grupos de influencers e identificar sus características representativas. A partir de estos resultados, creamos perfiles de influencers ficticios de Instagram con el objetivo de realizar un experimento (N=213) que analice el impacto de la similitud entre el influencer y el consumidor sobre la disposición a comprar y pagar por el producto y la disposición a recomendar y a republicar el contenido del influencer. De la etapa de clustering, concluimos que la cantidad de seguidores (sinónimo de popularidad), es una de las variables más interesantes al momento de identificar distintos grupos de influencers, mientras que de la etapa experimental, concluimos que la similitud entre el influencer y el seguidor (medida a partir de la similitud ideológica o de postura ante la legalización del aborto en Argentina) parece tener un impacto significativo sobre la disposición a comprar del seguidor , cuando este está en contra de la legalización del aborto. En conclusión, esta investigación no solo puede considerarse como el primer intento de combinar un análisis de clustering (técnica de Machine Learning) con experimentos (método de investigación en Marketing), sino que también propone que las compañías tengan en cuenta la similitud que existe entre su público objetivo y los influencers que pretenden seleccionar para publicitar sus productos.Since the emergence of social networks, companies have slowly abandoned traditional strategies for promoting their products and services, in favor of a new way of doing marketing: the so-called Influencer Marketing. It consists in advertising products through social media influencers (considered “online celebrities” on the Internet) and their posts viewed by millions of followers. However, along with this recent online marketing strategy a new business problem also arises: which influencers should companies and brands choose in order to maximize their sales? Given that the literature on this topic is diverse and does not suggest a definitive strategy to be followed by companies, this study proposes a set of analytical tools that can be useful for firms when facing the main problem of Influencer Marketing. Particularly, we suggest running clustering algorithms on current influencers data in order to find patterns that characterize them and using these results to carry out controlled experiments that help to understand how different influencers characteristics affect consumer behavior. Therefore, using the database of Instagram influencers provided by the company Upfluence, we ran a k -prototypes algorithm to identify groups of influencers. With these results, we created fictitious profiles of Instagram influencers in order to run an experiment (N = 213) that studies the impact of the similarity between the influencer and their followers on the willingness to buy and pay for the product and the willingness to recommend and republish the content of the influencer. From the clustering step, we conclude that the number of followers (measure of popularity) is one of the most interesting variables when identifying different groups of influencers, while from the experimental step, we conclude that the similarity between the influencer and their followers (which was measured using the ideological similarity or position regarding the legalization of abortion in Argentina) seems to have a significant effect on the willingness to buy (the product) of the follower when they are against abortion. In conclusion, this research can not only be considered as a first attempt to combine clustering analysis (machine learning technique) and experiments (marketing research method), but also proposes that companies should take into account the similarity that exists between their target audience and the influencers they select to advertise their products