14 research outputs found

    Generation of Replacement Options in Text Sanitization

    Get PDF

    Neural Text Sanitization with Privacy Risk Indicators: An Empirical Analysis

    Full text link
    Text sanitization is the task of redacting a document to mask all occurrences of (direct or indirect) personal identifiers, with the goal of concealing the identity of the individual(s) referred in it. In this paper, we consider a two-step approach to text sanitization and provide a detailed analysis of its empirical performance on two recently published datasets: the Text Anonymization Benchmark (Pil\'an et al., 2022) and a collection of Wikipedia biographies (Papadopoulou et al., 2022). The text sanitization process starts with a privacy-oriented entity recognizer that seeks to determine the text spans expressing identifiable personal information. This privacy-oriented entity recognizer is trained by combining a standard named entity recognition model with a gazetteer populated by person-related terms extracted from Wikidata. The second step of the text sanitization process consists in assessing the privacy risk associated with each detected text span, either isolated or in combination with other text spans. We present five distinct indicators of the re-identification risk, respectively based on language model probabilities, text span classification, sequence labelling, perturbations, and web search. We provide a contrastive analysis of each privacy indicator and highlight their benefits and limitations, notably in relation to the available labeled data

    Automatic Error Detection and Correction in Neural Machine Translation : A comparative study of Swedish to English and Greek to English

    No full text
    Automatic detection and automatic correction of machine translation output are important steps to ensure an optimal quality of the final output. In this work, we compared the output of neural machine translation of two different language pairs, Swedish to English and Greek to English. This comparison was made using common machine translation metrics (BLEU, METEOR, TER) and syntax-related ones (POSBLEU, WPF, WER on POS classes). It was found that neither common metrics nor purely syntax-related ones were able to capture the quality of the machine translation output accurately, but the decomposition of WER over POS classes was the most informative one. A sample of each language was taken, so as to aid in the comparison between manual and automatic error categorization of five error categories, namely reordering errors, inflectional errors, missing and extra words, and incorrect lexical choices. Both Spearman’s ρ and Pearson’s r showed that there is a good correlation with human judgment with values above 0.9. Finally, based on the results of this error categorization, automatic post editing rules were implemented and applied, and their performance was checked against the sample, and the rest of the data set, showing varying results. The impact on the sample was greater, showing improvement in all metrics, while the impact on the rest of the data set was negative. An investigation of that, alongside the fact that correction was not possible for Greek due to extremely free reference translations and lack of error patterns in spoken speech, reinforced the belief that automatic post-editing is tightly connected to consistency in the reference translation, while also proving that in machine translation output handling, potentially more than one reference translations would be needed to ensure better results

    Laboratory investigation into the behaviour of silty sands under monotonic and cyclic loading

    No full text
    The purpose of the work presented in the PhD thesis is the laboratory investigation of the monotonic an cyclic behaviour of silty sands. The primary goal was: a) the determination of the effect of non-plastic fines, effective stress and density on the cyclic behaviour of artificial sand-silt mixtures and natural silty sands, as expressed by liquefaction resistance ration and rope water pressure buildup and b) the study of the monotonic behaviour of the tested soils and the relation of their Critical Sate with their liquefaction resistance. The cyclic triaxial apparatus of the Laboratory of Aristotle University of Thessaloniki was used for the performance of monotonic and cyclic triaxial test on artificial mixtures of sand with non-plastic fines as well as on silty sands, liquefied in the field during earthquakes. The kind of monotonic behaviour (contractive, contractive/dilative or clear dilative) of silty sands is determined depending on their density, effective stress of fines content. From the position of their Critical State Lines there is a threshold fines content which is the same with the one determined for the cyclic behaviour of sand-silt mixtures. An equation is proposed for the estimation of the threshold fines content in relation with the void ration of the mixture, the ration of fines to sand diameter, the separation distance and the arrangement of sand grains. This equation is extremely useful because it contributes in explaining and understanding the change in the behaviour of mixtures with increasing fines content indicating the importance of grading distribution, mineralogy and characteristics of fine shape. Even if the positive effect of fines on liquefaction resistance ratio, that is taken in account in all modern codes, is confirmed from the results of this PhD thesis, the results also indicate the significance of other parameters such as the soils mineralogy, grading distribution, characteristics of their grains shape as well as their plasticity, geological history, which affect their liquefaction resistance and are not taken in account in the codesΑντικείμενο της διδακτορικής διατριβής είναι η εργαστηριακή μελέτη της μονοτονικής και ανακυκλικής συμπεριφοράς των ιλυωδών άμμων. Ο πρωταρχικός στόχος της είναι: α) ο προσδιορισμός της επίδρασης των μη-πλαστικών λεπτοκόκκων, της ενεργού τάσης και της πυκνότητας στην ανακυκλική συμπεριφορά, όπως εκφράζεται από το λόγο αντίστασης ρευστοποίησης και τη συσσώρευση τη υπερπίεσης του ύδατος των πόρων, τεχνητών μειγμάτων άμμου-ιλύος και φυσικών ιλυωδών άμμων και β) η μελέτη του είδους της συμπεριφοράς των μελετηθέντων εδαφών υπό μονοτονική φόρτιση και η σύνδεση της Κρίσιμης Κατάστασής τους με το λόγο αντίστασης ρευστοποίησης. Χρησιμοποιήθηκε η τριαξονική συσκευή ανακυκλικής φόρτισης του Εργαστηρίου Εδαφομηχανικής, Θεμελιώσεων και Γεωτεχνικής Σεισμικής Μηχανικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης και εκτελέστηκαν τριαξονικές δοκιμές μονοτονικής και ανακυκλικής φόρτισης, σε τεχνικά μείγματα άμμου με μη-πλαστικά λεπτόκοκκα καθώς και σε φυσικές ιλυώδεις άμμους οι οποίες ρευστοποιήθηκαν στο πεδίο κατά τη διάρκεια σεισμών. Το είδος της μονοτονικής συμπεριφοράς των ιλυωδών άμμων (συστολική, συστολική/διαστολική, διαστολική ή καθαρή διαστολική) προσδιορίζεται ανάλογα με την πυκνότητα, την ενεργό τάση και το ποσοστό λεπτοκκόκων τους. Το κρίσιμο ποσοστό λεπτοκόκκων που προκύπτει από τη θέση των Γραμμών Κρίσιμης Κατάστασης είναι το ίδιο με εκείνο που προσδιορίστηκε για την ανακυκλική συμπεριφορά των τεχνητών μειγμάτων. Η προτεινόμενη σχέση για τον προσδιορισμό του κρίσιμου ποσοστού σαν συνάρτηση του δείκτη πόρων του μείγματος , του λόγου των διαμέτρων του λεπτόκκοκου και της άμμου, της διαχωριστικής απόστασης και της διάταξης των κόκκων μεγάλης διαμέτρου, είναι εξαιρετικά χρήσιμη διότι συμβάλλει στην ερμηνεία και στην κατανόηση της αλλαγής της συμπεριφοράς των μειγμάτων με αυξανόμενο ποσοστό λεπτοκκόκων αναδεικνύοντας τη σημασία της κοκκομετρικής διαβάθμισης, της ορυκτολογικής σύστασης και των χαρακτηριστικών του σχήματος των λεπτοκόκκων. Όσον αφορά στην ανακυκλική συμπεριφορά των ιλυωδών άμμων, η επίδραση του ποσοστού λεπτοκόκκων στο λόγο αντίστασης ρευστοποίησης, είναι θετική μέχρι το κρίσιμο ποσοστό και αρνητική στη συνέχεια, όταν η σύγκριση των αποτελεσμάτων γίνεται για σταθερό δείκτη πόρων η επίδραση είναι αρνητική μέχρι το κρίσιμο ποσοστό και θετική στη συνέχεια. Το κρίσιμο ποσοστό λεπτοκόκκων μειώνεται με αυξανόμενη ενεργό τάση. Η επίδραση του ενεργού τάσης στη λέσχη μεταξύ του λόγου αντίστασης ρευστοποίησης και παραμέτρου Κρίσιμης Κατάστασης εξεσθενεί για ποσοστά λεπτοκόκκων μεγαλύτερα από το 15%. Σε μεγάλες τάσεις (≥300kPa) εάν εκδηλωθεί ρευστοποίηση του εδάφους αυτή θα έχει τη μορφή της ανακυκλικής κινητικότητας. Αν και επιβεβαιώνεται η θετική επίδραση των λεπτοκόκκων στο λόγο αντίστασης ρευστοποίησης η οποία υιοθετείται στους σύγχρονους κανονισμούς, τα αποτελέσματα της διατριβής αναδεικνύουν τη σημασία και άλλων παραμέτρων όπως η ορυκτολογική σύσταση των εδαφών, η κoκκομετρική τους διαβάθμιση, τα χαρακτηριστικά του σχήματος των κόκκων τους καθώς κα η πλαστικότητα αλλά και η γεωλογική τους ιστορία, τα οποία επηρεάζουν την αντίστασή τους σε ρευστοποίηση και δεν λαμβάνονται υπόψη στους κανονισμούς

    Monotonic and cyclic behaviour of sand-silt mixtures through the equivalent state parameter

    Get PDF
    This paper presents the results of a laboratory investigation into the effect of non-plastic fines on the monotonic and cyclic behaviour of sand-silt mixtures. For this purpose, drained and undrained triaxial monotonic and undrained stresscontrolled cyclic triaxial tests were performed on clean sand and its mixtures with non-plastic silt. The Critical State theory known as a characteristic state of soil behaviour and the equivalent state concept were used to the interpretation of the laboratory tests results. By estimating parameter b, which recognizes that different percentages of fines contribute differently to the strength of the sand and consequently the equivalent intergranular void ratio, (eg)eq, a single Critical State Line, CSL, is determined in the (eg)eq-log(p΄) plane, and a single liquefaction resistance curve at the CRR15-(eg)eq, independently of fines content, fc, based on the monotonic and cyclic tests results, respectively. It is shown that parameter b depends on the fines content, fc, and on the loading type of the laboratory test conducted, while (eg)eq proves to be a suitable parameter for the estimation of the monotonic behavior and undrained critical state strength as well as the liquefaction resistance of granular mixtures up to the threshold fines content value, fcth, independently of their fines content. The effectiveness of state parameter, ψ, and equivalent state parameter, (ψg)eq, in the estimation of the undrained critical state strength and liquefaction resistance of sand-silt mixtures is confirmed

    Laboratory-Based Correlation between Liquefaction Resistance and Shear Wave Velocity of Sand with Fines

    No full text
    This paper presents the results of a laboratory investigation into the effect of non-plastic fines on the correlation between liquefaction resistance and the shear wave velocity of sand. For this purpose, undrained stress-controlled cyclic triaxial and bender element tests were performed on clean sand and its mixtures with non-plastic silt. It is shown that the correlation between liquefaction resistance and shear wave velocity depends on fines content and confining effective stress. Based on the test results, correlation curves between field liquefaction resistance and overburden stress corrected shear wave velocity for sand containing various contents of fines are derived. These curves are compared to other previously proposed by field and laboratory studies

    Bootstrapping Text Anonymization Models with Distant Supervision

    Full text link
    We propose a novel method to bootstrap text anonymization models based on distant supervision. Instead of requiring manually labeled training data, the approach relies on a knowledge graph expressing the background information assumed to be publicly available about various individuals. This knowledge graph is employed to automatically annotate text documents including personal data about a subset of those individuals. More precisely, the method determines which text spans ought to be masked in order to guarantee kk-anonymity, assuming an adversary with access to both the text documents and the background information expressed in the knowledge graph. The resulting collection of labeled documents is then used as training data to fine-tune a pre-trained language model for text anonymization. We illustrate this approach using a knowledge graph extracted from Wikidata and short biographical texts from Wikipedia. Evaluation results with a RoBERTa-based model and a manually annotated collection of 553 summaries showcase the potential of the approach, but also unveil a number of issues that may arise if the knowledge graph is noisy or incomplete. The results also illustrate that, contrary to most sequence labeling problems, the text anonymization task may admit several alternative solutions

    In vitro investigation of the cellular mechanisms activated by GO and rGO in Mesenchymal Stwm Cells (MSCs)

    No full text
    Η Μηχανική Ιστών ενσωματώνει τη χρήση καινοτόμων βιοϋλικών στοχεύοντας στην επιδιόρθωση της λειτουργίας ή την ανακατασκευή ιστών/οργάνων. Τα υλικά με βάση το γραφένιο (GBMs) έχουν προσελκύσει τεράστιο ενδιαφέρον λόγω της μοναδικής δομής και των ιδιαίτερων ιδιοτήτων τους, ωστόσο, έχει εκφραστεί ανησυχία για τις πιθανές δυσμενείς επιπτώσεις τους. Ως εκ τούτου, είναι υψίστης σημασίας να πραγματοποιηθεί αξιολόγηση των αλληλεπιδράσεων κυττάρου-γραφενίου, καθώς και των υποκείμενων μηχανισμών, προκειμένου να διευκολυνθεί η σωστή ανάπτυξη και χρήση τους για βιοϊατρικές εφαρμογές. Σε αυτή τη διατριβή, μελετήσαμε δύο υλικά που έχουν ως βάση το γραφένιο – το οξείδιο γραφενίου (GO) και το ανηγμένο οξείδιο γραφενίου (rGO) - και την επίδρασή τους στα μεσεγχυματικά βλαστοκύτταρα (MSCs), μια πολυδύναμη κυτταρική σειρά που χρησιμοποιείται ευρέως σε εφαρμογές μηχανικής ιστών. Εστιάσαμε στο αν η παρουσία αυτών των δύο υλικών ενεργοποιεί την απόκριση του κυτταρικού οξειδωτικού στρες, ένα πανταχού παρόν φαινόμενο που σχετίζεται με διαταραχές στη φυσιολογική οξειδοαναγωγική κατάσταση των κυττάρων. Για τον προσδιορισμό της τοξικότητας του γραφενίου, πραγματοποιήθηκαν δοκιμασίες κυτταροτοξικότητας και πολλαπλασιασμού σε κυτταροκαλλιέργειες για διαφορετικές συγκεντρώσεις GO και rGO. Ο εντοπισμός των σημαντικών μεταγραφικών παραγόντων που σχετίζονται με την απόκριση του οξειδωτικού στρες αξιολογήθηκε μέσω ανοσοφθορισμού χρώσης και συνεστιακής μικροσκοπίας. Τα πρότυπα έκφρασης των γονιδίων που κωδικοποιούν πρωτεΐνες των συστημάτων κυτταρικής αντιοξειδωτικής δράσης - γλουταροξίνης και θειορεδοξίνης - μελετήθηκαν επίσης και αναλύθηκαν μέσω της ποσοτικής αλυσιδωτής αντίδρασης της πολυμεράσης με αντίστροφη μεταγραφάση (q RT-PCR), για να ανιχνευθούν πιθανές εναλλαγές στην έκφραση του mRNA που προκαλούνται από την έκθεση των κυττάρων σε GO και rGO. Στην παρούσα εργασία, μπορέσαμε να προσδιορίσουμε ότι τόσο το GO όσο και το rGO επηρεάζουν τις κυτταρικές αποκρίσεις συναρτήσει της συγκέντρωσης/δόσης του υλικού.Tissue Engineering embraces the employment of novel biomaterials in order to realize functional tissue/organ repair or reconstruction. Graphene-based materials (GBMs) have attracted enormous interest due to their unique structure and properties, however, concern has been raised about their potential adverse effects. Therefore, it is of utmost importance to evaluate the cell-graphene interactions, as well as the underlying mechanisms in order to facilitate their proper development and use for biomedical applications. In this thesis, we have studied two GBMs – graphene oxide (GO) and reduced graphene oxide (rGO) – and their effect on mesenchymal stem cells (MSCs), a pluripotent cell line extensively used in tissue engineering applications. We focused on whether the presence of these two materials activates the cellular oxidative stress response, a ubiquitous phenomenon related with disturbances in the normal redox state of cells. To determine the toxicity of graphene, cytotoxicity and proliferation assays were performed in cell cultures for different concentrations of GO and rGO. The localization of key transcription factors relating to the oxidative stress response was evaluated through immunofluorescent staining and confocal microscopy. The expression patterns of genes encoding for proteins of the glutaredoxin and thioredoxin cellular detoxification systems were also studied and analysed via quantitative RT-PCR, to detect potential alternations in mRNA expression caused by GO and rGO exposure. Through this work, we were able to determine that both GO and rGO affect cellular responses in a dose-dependent manner

    The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization

    Full text link
    We present a novel benchmark and associated evaluation metrics for assessing the performance of text anonymization methods. Text anonymization, defined as the task of editing a text document to prevent the disclosure of personal information, currently suffers from a shortage of privacy-oriented annotated text resources, making it difficult to properly evaluate the level of privacy protection offered by various anonymization methods. This paper presents TAB (Text Anonymization Benchmark), a new, open-source annotated corpus developed to address this shortage. The corpus comprises 1,268 English-language court cases from the European Court of Human Rights (ECHR) enriched with comprehensive annotations about the personal information appearing in each document, including their semantic category, identifier type, confidential attributes, and co-reference relations. Compared to previous work, the TAB corpus is designed to go beyond traditional de-identification (which is limited to the detection of predefined semantic categories), and explicitly marks which text spans ought to be masked in order to conceal the identity of the person to be protected. Along with presenting the corpus and its annotation layers, we also propose a set of evaluation metrics that are specifically tailored towards measuring the performance of text anonymization, both in terms of privacy protection and utility preservation. We illustrate the use of the benchmark and the proposed metrics by assessing the empirical performance of several baseline text anonymization models. The full corpus along with its privacy-oriented annotation guidelines, evaluation scripts and baseline models are available on: https://github.com/NorskRegnesentral/text-anonymisation-benchmar
    corecore