14 research outputs found
Neural Text Sanitization with Privacy Risk Indicators: An Empirical Analysis
Text sanitization is the task of redacting a document to mask all occurrences
of (direct or indirect) personal identifiers, with the goal of concealing the
identity of the individual(s) referred in it. In this paper, we consider a
two-step approach to text sanitization and provide a detailed analysis of its
empirical performance on two recently published datasets: the Text
Anonymization Benchmark (Pil\'an et al., 2022) and a collection of Wikipedia
biographies (Papadopoulou et al., 2022). The text sanitization process starts
with a privacy-oriented entity recognizer that seeks to determine the text
spans expressing identifiable personal information. This privacy-oriented
entity recognizer is trained by combining a standard named entity recognition
model with a gazetteer populated by person-related terms extracted from
Wikidata. The second step of the text sanitization process consists in
assessing the privacy risk associated with each detected text span, either
isolated or in combination with other text spans. We present five distinct
indicators of the re-identification risk, respectively based on language model
probabilities, text span classification, sequence labelling, perturbations, and
web search. We provide a contrastive analysis of each privacy indicator and
highlight their benefits and limitations, notably in relation to the available
labeled data
Automatic Error Detection and Correction in Neural Machine Translation : A comparative study of Swedish to English and Greek to English
Automatic detection and automatic correction of machine translation output are important steps to ensure an optimal quality of the final output. In this work, we compared the output of neural machine translation of two different language pairs, Swedish to English and Greek to English. This comparison was made using common machine translation metrics (BLEU, METEOR, TER) and syntax-related ones (POSBLEU, WPF, WER on POS classes). It was found that neither common metrics nor purely syntax-related ones were able to capture the quality of the machine translation output accurately, but the decomposition of WER over POS classes was the most informative one. A sample of each language was taken, so as to aid in the comparison between manual and automatic error categorization of five error categories, namely reordering errors, inflectional errors, missing and extra words, and incorrect lexical choices. Both Spearman’s ρ and Pearson’s r showed that there is a good correlation with human judgment with values above 0.9. Finally, based on the results of this error categorization, automatic post editing rules were implemented and applied, and their performance was checked against the sample, and the rest of the data set, showing varying results. The impact on the sample was greater, showing improvement in all metrics, while the impact on the rest of the data set was negative. An investigation of that, alongside the fact that correction was not possible for Greek due to extremely free reference translations and lack of error patterns in spoken speech, reinforced the belief that automatic post-editing is tightly connected to consistency in the reference translation, while also proving that in machine translation output handling, potentially more than one reference translations would be needed to ensure better results
Laboratory investigation into the behaviour of silty sands under monotonic and cyclic loading
The purpose of the work presented in the PhD thesis is the laboratory investigation of the monotonic an cyclic behaviour of silty sands. The primary goal was: a) the determination of the effect of non-plastic fines, effective stress and density on the cyclic behaviour of artificial sand-silt mixtures and natural silty sands, as expressed by liquefaction resistance ration and rope water pressure buildup and b) the study of the monotonic behaviour of the tested soils and the relation of their Critical Sate with their liquefaction resistance. The cyclic triaxial apparatus of the Laboratory of Aristotle University of Thessaloniki was used for the performance of monotonic and cyclic triaxial test on artificial mixtures of sand with non-plastic fines as well as on silty sands, liquefied in the field during earthquakes. The kind of monotonic behaviour (contractive, contractive/dilative or clear dilative) of silty sands is determined depending on their density, effective stress of fines content. From the position of their Critical State Lines there is a threshold fines content which is the same with the one determined for the cyclic behaviour of sand-silt mixtures. An equation is proposed for the estimation of the threshold fines content in relation with the void ration of the mixture, the ration of fines to sand diameter, the separation distance and the arrangement of sand grains. This equation is extremely useful because it contributes in explaining and understanding the change in the behaviour of mixtures with increasing fines content indicating the importance of grading distribution, mineralogy and characteristics of fine shape. Even if the positive effect of fines on liquefaction resistance ratio, that is taken in account in all modern codes, is confirmed from the results of this PhD thesis, the results also indicate the significance of other parameters such as the soils mineralogy, grading distribution, characteristics of their grains shape as well as their plasticity, geological history, which affect their liquefaction resistance and are not taken in account in the codesΑντικείμενο της διδακτορικής διατριβής είναι η εργαστηριακή μελέτη της μονοτονικής και ανακυκλικής συμπεριφοράς των ιλυωδών άμμων. Ο πρωταρχικός στόχος της είναι: α) ο προσδιορισμός της επίδρασης των μη-πλαστικών λεπτοκόκκων, της ενεργού τάσης και της πυκνότητας στην ανακυκλική συμπεριφορά, όπως εκφράζεται από το λόγο αντίστασης ρευστοποίησης και τη συσσώρευση τη υπερπίεσης του ύδατος των πόρων, τεχνητών μειγμάτων άμμου-ιλύος και φυσικών ιλυωδών άμμων και β) η μελέτη του είδους της συμπεριφοράς των μελετηθέντων εδαφών υπό μονοτονική φόρτιση και η σύνδεση της Κρίσιμης Κατάστασής τους με το λόγο αντίστασης ρευστοποίησης. Χρησιμοποιήθηκε η τριαξονική συσκευή ανακυκλικής φόρτισης του Εργαστηρίου Εδαφομηχανικής, Θεμελιώσεων και Γεωτεχνικής Σεισμικής Μηχανικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης και εκτελέστηκαν τριαξονικές δοκιμές μονοτονικής και ανακυκλικής φόρτισης, σε τεχνικά μείγματα άμμου με μη-πλαστικά λεπτόκοκκα καθώς και σε φυσικές ιλυώδεις άμμους οι οποίες ρευστοποιήθηκαν στο πεδίο κατά τη διάρκεια σεισμών. Το είδος της μονοτονικής συμπεριφοράς των ιλυωδών άμμων (συστολική, συστολική/διαστολική, διαστολική ή καθαρή διαστολική) προσδιορίζεται ανάλογα με την πυκνότητα, την ενεργό τάση και το ποσοστό λεπτοκκόκων τους. Το κρίσιμο ποσοστό λεπτοκόκκων που προκύπτει από τη θέση των Γραμμών Κρίσιμης Κατάστασης είναι το ίδιο με εκείνο που προσδιορίστηκε για την ανακυκλική συμπεριφορά των τεχνητών μειγμάτων. Η προτεινόμενη σχέση για τον προσδιορισμό του κρίσιμου ποσοστού σαν συνάρτηση του δείκτη πόρων του μείγματος , του λόγου των διαμέτρων του λεπτόκκοκου και της άμμου, της διαχωριστικής απόστασης και της διάταξης των κόκκων μεγάλης διαμέτρου, είναι εξαιρετικά χρήσιμη διότι συμβάλλει στην ερμηνεία και στην κατανόηση της αλλαγής της συμπεριφοράς των μειγμάτων με αυξανόμενο ποσοστό λεπτοκκόκων αναδεικνύοντας τη σημασία της κοκκομετρικής διαβάθμισης, της ορυκτολογικής σύστασης και των χαρακτηριστικών του σχήματος των λεπτοκόκκων. Όσον αφορά στην ανακυκλική συμπεριφορά των ιλυωδών άμμων, η επίδραση του ποσοστού λεπτοκόκκων στο λόγο αντίστασης ρευστοποίησης, είναι θετική μέχρι το κρίσιμο ποσοστό και αρνητική στη συνέχεια, όταν η σύγκριση των αποτελεσμάτων γίνεται για σταθερό δείκτη πόρων η επίδραση είναι αρνητική μέχρι το κρίσιμο ποσοστό και θετική στη συνέχεια. Το κρίσιμο ποσοστό λεπτοκόκκων μειώνεται με αυξανόμενη ενεργό τάση. Η επίδραση του ενεργού τάσης στη λέσχη μεταξύ του λόγου αντίστασης ρευστοποίησης και παραμέτρου Κρίσιμης Κατάστασης εξεσθενεί για ποσοστά λεπτοκόκκων μεγαλύτερα από το 15%. Σε μεγάλες τάσεις (≥300kPa) εάν εκδηλωθεί ρευστοποίηση του εδάφους αυτή θα έχει τη μορφή της ανακυκλικής κινητικότητας. Αν και επιβεβαιώνεται η θετική επίδραση των λεπτοκόκκων στο λόγο αντίστασης ρευστοποίησης η οποία υιοθετείται στους σύγχρονους κανονισμούς, τα αποτελέσματα της διατριβής αναδεικνύουν τη σημασία και άλλων παραμέτρων όπως η ορυκτολογική σύσταση των εδαφών, η κoκκομετρική τους διαβάθμιση, τα χαρακτηριστικά του σχήματος των κόκκων τους καθώς κα η πλαστικότητα αλλά και η γεωλογική τους ιστορία, τα οποία επηρεάζουν την αντίστασή τους σε ρευστοποίηση και δεν λαμβάνονται υπόψη στους κανονισμούς
Monotonic and cyclic behaviour of sand-silt mixtures through the equivalent state parameter
This paper presents the results of a laboratory investigation into the effect of non-plastic fines on the monotonic and cyclic behaviour of sand-silt mixtures. For this purpose, drained and undrained triaxial monotonic and undrained stresscontrolled cyclic triaxial tests were performed on clean sand and its mixtures with non-plastic silt. The Critical State theory known as a characteristic state of soil behaviour and the equivalent state concept were used to the interpretation of the laboratory tests results. By estimating parameter b, which recognizes that different percentages of fines contribute differently to the strength of the sand and consequently the equivalent intergranular void ratio, (eg)eq, a single Critical State Line, CSL, is determined in the (eg)eq-log(p΄) plane, and a single liquefaction resistance curve at the CRR15-(eg)eq, independently of fines content, fc, based on the monotonic and cyclic tests results, respectively. It is shown that parameter b depends on the fines content, fc, and on the loading type of the laboratory test conducted, while (eg)eq proves to be a suitable parameter for the estimation of the monotonic behavior and undrained critical state strength as well as the liquefaction resistance of granular mixtures up to the threshold fines content value, fcth, independently of their fines content. The effectiveness of state parameter, ψ, and equivalent state parameter, (ψg)eq, in the estimation of the undrained critical state strength and liquefaction resistance of sand-silt mixtures is confirmed
Laboratory-Based Correlation between Liquefaction Resistance and Shear Wave Velocity of Sand with Fines
This paper presents the results of a laboratory investigation into the effect of non-plastic fines on the correlation between liquefaction resistance and the shear wave velocity of sand. For this purpose, undrained stress-controlled cyclic triaxial and bender element tests were performed on clean sand and its mixtures with non-plastic silt. It is shown that the correlation between liquefaction resistance and shear wave velocity depends on fines content and confining effective stress. Based on the test results, correlation curves between field liquefaction resistance and overburden stress corrected shear wave velocity for sand containing various contents of fines are derived. These curves are compared to other previously proposed by field and laboratory studies
Bootstrapping Text Anonymization Models with Distant Supervision
We propose a novel method to bootstrap text anonymization models based on
distant supervision. Instead of requiring manually labeled training data, the
approach relies on a knowledge graph expressing the background information
assumed to be publicly available about various individuals. This knowledge
graph is employed to automatically annotate text documents including personal
data about a subset of those individuals. More precisely, the method determines
which text spans ought to be masked in order to guarantee -anonymity,
assuming an adversary with access to both the text documents and the background
information expressed in the knowledge graph. The resulting collection of
labeled documents is then used as training data to fine-tune a pre-trained
language model for text anonymization. We illustrate this approach using a
knowledge graph extracted from Wikidata and short biographical texts from
Wikipedia. Evaluation results with a RoBERTa-based model and a manually
annotated collection of 553 summaries showcase the potential of the approach,
but also unveil a number of issues that may arise if the knowledge graph is
noisy or incomplete. The results also illustrate that, contrary to most
sequence labeling problems, the text anonymization task may admit several
alternative solutions
In vitro investigation of the cellular mechanisms activated by GO and rGO in Mesenchymal Stwm Cells (MSCs)
Η Μηχανική Ιστών ενσωματώνει τη χρήση καινοτόμων βιοϋλικών στοχεύοντας στην επιδιόρθωση της λειτουργίας ή την ανακατασκευή ιστών/οργάνων. Τα υλικά με βάση το γραφένιο (GBMs) έχουν προσελκύσει τεράστιο ενδιαφέρον λόγω της μοναδικής δομής και των ιδιαίτερων ιδιοτήτων τους, ωστόσο, έχει εκφραστεί ανησυχία για τις πιθανές δυσμενείς επιπτώσεις τους. Ως εκ τούτου, είναι υψίστης σημασίας να πραγματοποιηθεί αξιολόγηση των αλληλεπιδράσεων κυττάρου-γραφενίου, καθώς και των υποκείμενων μηχανισμών, προκειμένου να διευκολυνθεί η σωστή ανάπτυξη και χρήση τους για βιοϊατρικές εφαρμογές.
Σε αυτή τη διατριβή, μελετήσαμε δύο υλικά που έχουν ως βάση το γραφένιο – το οξείδιο γραφενίου (GO) και το ανηγμένο οξείδιο γραφενίου (rGO) - και την επίδρασή τους στα μεσεγχυματικά βλαστοκύτταρα (MSCs), μια πολυδύναμη κυτταρική σειρά που χρησιμοποιείται ευρέως σε εφαρμογές μηχανικής ιστών. Εστιάσαμε στο αν η παρουσία αυτών των δύο υλικών ενεργοποιεί την απόκριση του κυτταρικού οξειδωτικού στρες, ένα πανταχού παρόν φαινόμενο που σχετίζεται με διαταραχές στη φυσιολογική οξειδοαναγωγική κατάσταση των κυττάρων. Για τον προσδιορισμό της τοξικότητας του γραφενίου, πραγματοποιήθηκαν δοκιμασίες κυτταροτοξικότητας και πολλαπλασιασμού σε κυτταροκαλλιέργειες για διαφορετικές συγκεντρώσεις GO και rGO. Ο εντοπισμός των σημαντικών μεταγραφικών παραγόντων που σχετίζονται με την απόκριση του οξειδωτικού στρες αξιολογήθηκε μέσω ανοσοφθορισμού χρώσης και συνεστιακής μικροσκοπίας. Τα πρότυπα έκφρασης των γονιδίων που κωδικοποιούν πρωτεΐνες των συστημάτων κυτταρικής αντιοξειδωτικής δράσης - γλουταροξίνης και θειορεδοξίνης - μελετήθηκαν επίσης και αναλύθηκαν μέσω της ποσοτικής αλυσιδωτής αντίδρασης της πολυμεράσης με αντίστροφη μεταγραφάση (q RT-PCR), για να ανιχνευθούν πιθανές εναλλαγές στην έκφραση του mRNA που προκαλούνται από την έκθεση των κυττάρων σε GO και rGO. Στην παρούσα εργασία, μπορέσαμε να προσδιορίσουμε ότι τόσο το GO όσο και το rGO επηρεάζουν τις κυτταρικές αποκρίσεις συναρτήσει της συγκέντρωσης/δόσης του υλικού.Tissue Engineering embraces the employment of novel biomaterials in order to realize functional tissue/organ repair or reconstruction. Graphene-based materials (GBMs) have attracted enormous interest due to their unique structure and properties, however, concern has been raised about their potential adverse effects. Therefore, it is of utmost importance to evaluate the cell-graphene interactions, as well as the underlying mechanisms in order to facilitate their proper development and use for biomedical applications.
In this thesis, we have studied two GBMs – graphene oxide (GO) and reduced graphene oxide (rGO) – and their effect on mesenchymal stem cells (MSCs), a pluripotent cell line extensively used in tissue engineering applications. We focused on whether the presence of these two materials activates the cellular oxidative stress response, a ubiquitous phenomenon related with disturbances in the normal redox state of cells. To determine the toxicity of graphene, cytotoxicity and proliferation assays were performed in cell cultures for different concentrations of GO and rGO. The localization of key transcription factors relating to the oxidative stress response was evaluated through immunofluorescent staining and confocal microscopy. The expression patterns of genes encoding for proteins of the glutaredoxin and thioredoxin cellular detoxification systems were also studied and analysed via quantitative RT-PCR, to detect potential alternations in mRNA expression caused by GO and rGO exposure. Through this work, we were able to determine that both GO and rGO affect cellular responses in a dose-dependent manner
The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization
We present a novel benchmark and associated evaluation metrics for assessing
the performance of text anonymization methods. Text anonymization, defined as
the task of editing a text document to prevent the disclosure of personal
information, currently suffers from a shortage of privacy-oriented annotated
text resources, making it difficult to properly evaluate the level of privacy
protection offered by various anonymization methods. This paper presents TAB
(Text Anonymization Benchmark), a new, open-source annotated corpus developed
to address this shortage. The corpus comprises 1,268 English-language court
cases from the European Court of Human Rights (ECHR) enriched with
comprehensive annotations about the personal information appearing in each
document, including their semantic category, identifier type, confidential
attributes, and co-reference relations. Compared to previous work, the TAB
corpus is designed to go beyond traditional de-identification (which is limited
to the detection of predefined semantic categories), and explicitly marks which
text spans ought to be masked in order to conceal the identity of the person to
be protected. Along with presenting the corpus and its annotation layers, we
also propose a set of evaluation metrics that are specifically tailored towards
measuring the performance of text anonymization, both in terms of privacy
protection and utility preservation. We illustrate the use of the benchmark and
the proposed metrics by assessing the empirical performance of several baseline
text anonymization models. The full corpus along with its privacy-oriented
annotation guidelines, evaluation scripts and baseline models are available on:
https://github.com/NorskRegnesentral/text-anonymisation-benchmar