69 research outputs found

    Using multiple re-embeddings for quantitative steganalysis and image reliability estimation

    Get PDF
    The quantitative steganalysis problem aims at estimating the amount of payload embedded inside a document. In this paper, JPEG images are considered, and by the use of a re-embedding based methodology, it is possible to estimate the number of original embedding changes performed on the image by a stego source and to slightly improve the estimation regarding classical quantitative steganalysis methods. The major advance of this methodology is that it also enables to obtain a confidence interval on this estimated payload. This confidence interval then permits to evaluate the difficulty of an image, in terms of steganalysis by estimating the reliability of the output. The regression technique comes from the OP-ELM and the reliability is estimated using linear approximation. The methodology is applied with a publicly available stego algorithm, regression model and database of images. The methodology is generic and can be used for any quantitative steganalysis problem of this class

    optimal pruned K-nearest neighbors: op-knn application to financial modeling

    Get PDF
    The paper proposes a methodology called OP-KNN, which builds a one hidden- layer feedforward neural network, using nearest neighbors neurons with extremely small com- putational time. The main strategy is to select the most relevant variables beforehand, then to build the model using KNN kernels. Multiresponse Sparse Regression (MRSR) is used as the second step in order to rank each kth nearest neighbor and finally as a third step Leave-One- Out estimation is used to select the number of neighbors and to estimate the generalization performances. This new methodology is tested on a toy example and is applied to financial modeling

    optimal pruned K-nearest neighbors: op-knn application to financial modeling

    No full text
    The paper proposes a methodology called OP-KNN, which builds a one hidden- layer feedforward neural network, using nearest neighbors neurons with extremely small com- putational time. The main strategy is to select the most relevant variables beforehand, then to build the model using KNN kernels. Multiresponse Sparse Regression (MRSR) is used as the second step in order to rank each kth nearest neighbor and finally as a third step Leave-One- Out estimation is used to select the number of neighbors and to estimate the generalization performances. This new methodology is tested on a toy example and is applied to financial modelin

    A Feature Selection Methodology for Steganalysis

    Get PDF
    Steganography has been known and used for a very long time, as a way to exchange information in an unnoticeable manner between parties, by embedding it in another, apparently innocuous, document. Nowadays steganographic techniques are mostly used on digital content. The online newspaper Wired News, reported in one of its articles [2] on steganography that several steganographic contents have been found on web sites with very large image database such as eBay. Niels Provos [3] has somewhat refuted these ideas by analyzing and classifying two million images from eBay and one million from USENet network and not finding any steganographic content embedded in these images. This could be due to many reasons, such as very low payloads, making the steganographic images very robust and secure to steganalysis. The security of a steganographic scheme has been defined theoretically by Cachin in [1] but this definition is very seldomly usable in practice. It requires to evaluate distributions and measure the Kullback-Leibler divergence between them. In practice, steganalysis is used as a way to evaluate the security of a steganographic scheme empirically: it aims at detecting whether a medium has been tampered with – but not to detect what is in the medium or how it has been embedded. By the use of features, one can get some relevant characteristics of the considered medium, and assess, by the use of machine learning tools, usually, whether the medium is genuine or not. This is only one way to perform steganalysis, but it remains the most common....Le principe de la stéganalyse est de classer un document incriminé comme original ou comme stéganographié. Cet article propose une méthodologie pour la stéganalyse utilisant la sélection de caractéristiques, orientée vers une diminution des intervales de confiance des résultats habituellement donnés. La sélection de caractéristiques permet également d’envisager une interprétation des caractéristiques d’images sélectionnées, dans le but de comprendre le fonctionnement intrinsèque des algorithmes de stéganographie. Il est montré que l’écart type des résultats obtenus habituellement en classification peut être très important (jusqu’à 5 %) lorsque des ensembles d’entrainements comportant trop peu d’échantillons sont utilisés. Ces tests sont menés sur six algorithmes de stéganographie, utilisés avec quatre taux d’insertions différents : 5, 10, 15 et 20 %. D’autre part, les caractéristiques sélectionnées (généralement 10 à 13 fois moins nombreuses que dans l’ensemble complet) permettent effectivement de faire ressortir les faiblesses ainsi que les avantages des algorithmes utilisés

    Avantages de la Sélection de Caractéristiques pour la Stéganalyse

    Get PDF
    La stéganalyse consiste à identifier la présence d'un message caché au sein d'un document. Cet article présente une méthodologie utilisant un ensemble de 193 caractéristiques d'images pour la stéganalyse. Deux buts sont visés: déterminer un nombre d'images suffisant pour un entraînement fiable d'un classifieur dans l'espace de grande dimension des données; puis utiliser la sélection de caractéristiques pour obtenir les plus pertinentes pour la classification. Cette réduction de la dimensionalité des données est effectuée avec l'algorithme forward et a permis de passer de 193 caractéristiques à 14 en conservant des performances très proches

    Developing fast machine learning techniques with applications to steganalysis problems

    Get PDF
    Developing Fast Machine Learning Techniques with Applications to Steganalysis Problems, Dissertation for the obtention of the degree of Doctor of Science (D.Sc.) in Technology to be presented with due permission of the Faculty of Information and Natural Sciences for public examination and debate in Auditorium AS1, at the Aalto University School of Science and Technology (Espoo, Finland) on the 2nd of November, 2010, at 12 noon, © October 2010In the history of human communication, the concept and need for secrecy between the parties has always been present. One way of achieving it is to modify the message so that it is readable only by the receiver, as in cryptography for example. Hiding the message in an innocuous medium is another, called steganography. And the counterpart to steganography, that is, discovering whether a message is hidden in a specific medium, is called steganalysis. Other concerns also fall within the broad scope of the term steganalysis, such as estimating the message length for example (which is quantitative steganalysis). In this dissertation, the emphasis is put on classical steganalysis of images first -- the mere detection of a modified image -- for which a practical benchmark is proposed: the evaluation of a sufficient amount of samples to perform the steganalysis in a statistically significant manner, followed by feature selection for dimensionality reduction and interpretability. The fact that most of the features used in the classical steganalysis task have a physical meaning, regarding the image, lends itself to an introspection and analysis of the selected features for understanding the functioning and weaknesses of steganographic schemes. This approach is computationally demanding, both because of the feature selection and the size of the data in steganalysis problems. To address this issue, a fast and efficient machine learning model is proposed, the Optimally-Pruned Extreme Learning Machine (OP-ELM). It uses random projections in the framework of an Artificial Neural Network (precisely, a Single Layer Feedforward Network) along with a neuron selection strategy, to obtain robustness regarding irrelevant features, and achieves state of the art performances. The OP-ELM is also used in a novel approach at quantitative steganalysis (message length estimation). The re-embedding concept is proposed, which embeds a new known message in a suspicious image. By repeating this operation multiple times for varying sizes of the newly embedded message, it is possible to estimate the original message size used by the sender, along with a confidence interval on this value. An intrinsic property of the image, the inner difficulty, is also revealed thanks to the confidence interval width; this gives an important information about the reliability of the estimation on the original message size.Depuis que les Hommes communiquent, le besoin de dissimuler tout ou partie de la communication existe. On peut citer au moins deux formes de dissimulation d'un message au sein d'une communication: Dans le premier cas, le message à envoyer peut lui même être modifié, de telle sorte que seul le destinataire puisse le décoder. La cryptographie s'emploie par exemple à cette tâche. Une autre forme est celle de la stéganographie, qui vise à dissimuler le message au sein d'un document. Et de même que pour la cryptographie dont le pendant est la cryptanalyse visant à décrypter le message, la stéganalyse est à l'opposé de la stéganographie et se charge de détecter l'existence d'un message. Le terme de stéganalyse peut également désigner l'importante classe de problèmes liés à la détection de l'existence du message mais aussi à l'estimation de sa taille (stéganalyse quantitative) ou encore de son contenu. Dans cette thèse, l'accent est tout d'abord mis sur le problème classique de stéganalyse (détection de la présence du message). Une méthodologie permettant d'obtenir des résultats statistiquement fiables dans ce contexte est proposée. Il sagit tout d'abord d'estimer le nombre d'échantillons (ici des images) suffisant à l'obtention de résultats pertinents, puis de réduire la dimensionalité du problème par une approche basée sur la sélection de variables. Dans le contexte de la stéganalyse, la plupart des variables obtenues peuvent être interprétées physiquement, ce qui permet une interprétation de la sélection de variables obtenue: les variables sélectionnées en premier réagissent vraisemblablement de façon importante aux changements causés par la présence du message. Leur analyse peut permettre de comprendre le fonctionnement et les faiblesses de l'algorithme de stéganographie utilisé, par exemple. Cette méthodologie peut s'avérer complexe en termes de calculs et donc nécessiter des temps d'éxecution importants. Pour pallier à ce problème, un nouveau modèle pour le "Machine Learning" est proposé, l'OP-ELM. L'OPELM est constitué d'un Réseau de Neurones au sein duquel des projections aléatoires sont utilisées. Les neurones sont ensuite classés par pertinence vis à vis du problème, et seuls les plus pertinents sont conservés. Cette structure de modèle parvient à obtenir des performances similaires à celles de l'état de l'art dans le domaine du "Machine Learning". Enfin, le modèle OP-ELM est utilisé dans le cadre de la stéganalyse quantitative, cette fois (l'estimation de la taille du message). Une approche nouvelle sur ce problème est utilisée, faisant appel à une technique de ré-insertion d'un message au sein d'une image considérée comme suspecte. En répétant ce processus de ré-insertion un certain nombre de fois, et pour des messages connus de tailles différentes, il est possible d'estimer la taille du message original utilisé par l'expéditeur. De plus, par l'utilisation de la largeur de l'intervalle de confiance obtenu sur la taille du message original, une mesure de la difficulté intrinsèque à l'image est présentée. Ceci permet d'estimer la fiabilité de la prédiction obtenue pour la taille du message original

    Developing fast machine learning techniques with applications to steganalysis problems

    No full text
    Developing Fast Machine Learning Techniques with Applications to Steganalysis Problems, Dissertation for the obtention of the degree of Doctor of Science (D.Sc.) in Technology to be presented with due permission of the Faculty of Information and Natural Sciences for public examination and debate in Auditorium AS1, at the Aalto University School of Science and Technology (Espoo, Finland) on the 2nd of November, 2010, at 12 noon, © October 2010In the history of human communication, the concept and need for secrecy between the parties has always been present. One way of achieving it is to modify the message so that it is readable only by the receiver, as in cryptography for example. Hiding the message in an innocuous medium is another, called steganography. And the counterpart to steganography, that is, discovering whether a message is hidden in a specific medium, is called steganalysis. Other concerns also fall within the broad scope of the term steganalysis, such as estimating the message length for example (which is quantitative steganalysis). In this dissertation, the emphasis is put on classical steganalysis of images first -- the mere detection of a modified image -- for which a practical benchmark is proposed: the evaluation of a sufficient amount of samples to perform the steganalysis in a statistically significant manner, followed by feature selection for dimensionality reduction and interpretability. The fact that most of the features used in the classical steganalysis task have a physical meaning, regarding the image, lends itself to an introspection and analysis of the selected features for understanding the functioning and weaknesses of steganographic schemes. This approach is computationally demanding, both because of the feature selection and the size of the data in steganalysis problems. To address this issue, a fast and efficient machine learning model is proposed, the Optimally-Pruned Extreme Learning Machine (OP-ELM). It uses random projections in the framework of an Artificial Neural Network (precisely, a Single Layer Feedforward Network) along with a neuron selection strategy, to obtain robustness regarding irrelevant features, and achieves state of the art performances. The OP-ELM is also used in a novel approach at quantitative steganalysis (message length estimation). The re-embedding concept is proposed, which embeds a new known message in a suspicious image. By repeating this operation multiple times for varying sizes of the newly embedded message, it is possible to estimate the original message size used by the sender, along with a confidence interval on this value. An intrinsic property of the image, the inner difficulty, is also revealed thanks to the confidence interval width; this gives an important information about the reliability of the estimation on the original message size.Depuis que les Hommes communiquent, le besoin de dissimuler tout ou partie de la communication existe. On peut citer au moins deux formes de dissimulation d'un message au sein d'une communication: Dans le premier cas, le message à envoyer peut lui même être modifié, de telle sorte que seul le destinataire puisse le décoder. La cryptographie s'emploie par exemple à cette tâche. Une autre forme est celle de la stéganographie, qui vise à dissimuler le message au sein d'un document. Et de même que pour la cryptographie dont le pendant est la cryptanalyse visant à décrypter le message, la stéganalyse est à l'opposé de la stéganographie et se charge de détecter l'existence d'un message. Le terme de stéganalyse peut également désigner l'importante classe de problèmes liés à la détection de l'existence du message mais aussi à l'estimation de sa taille (stéganalyse quantitative) ou encore de son contenu. Dans cette thèse, l'accent est tout d'abord mis sur le problème classique de stéganalyse (détection de la présence du message). Une méthodologie permettant d'obtenir des résultats statistiquement fiables dans ce contexte est proposée. Il sagit tout d'abord d'estimer le nombre d'échantillons (ici des images) suffisant à l'obtention de résultats pertinents, puis de réduire la dimensionalité du problème par une approche basée sur la sélection de variables. Dans le contexte de la stéganalyse, la plupart des variables obtenues peuvent être interprétées physiquement, ce qui permet une interprétation de la sélection de variables obtenue: les variables sélectionnées en premier réagissent vraisemblablement de façon importante aux changements causés par la présence du message. Leur analyse peut permettre de comprendre le fonctionnement et les faiblesses de l'algorithme de stéganographie utilisé, par exemple. Cette méthodologie peut s'avérer complexe en termes de calculs et donc nécessiter des temps d'éxecution importants. Pour pallier à ce problème, un nouveau modèle pour le "Machine Learning" est proposé, l'OP-ELM. L'OPELM est constitué d'un Réseau de Neurones au sein duquel des projections aléatoires sont utilisées. Les neurones sont ensuite classés par pertinence vis à vis du problème, et seuls les plus pertinents sont conservés. Cette structure de modèle parvient à obtenir des performances similaires à celles de l'état de l'art dans le domaine du "Machine Learning". Enfin, le modèle OP-ELM est utilisé dans le cadre de la stéganalyse quantitative, cette fois (l'estimation de la taille du message). Une approche nouvelle sur ce problème est utilisée, faisant appel à une technique de ré-insertion d'un message au sein d'une image considérée comme suspecte. En répétant ce processus de ré-insertion un certain nombre de fois, et pour des messages connus de tailles différentes, il est possible d'estimer la taille du message original utilisé par l'expéditeur. De plus, par l'utilisation de la largeur de l'intervalle de confiance obtenu sur la taille du message original, une mesure de la difficulté intrinsèque à l'image est présentée. Ceci permet d'estimer la fiabilité de la prédiction obtenue pour la taille du message original
    corecore