194 research outputs found

    Towards Vertical Privacy-Preserving Symbolic Regression via Secure Multiparty Computation

    Full text link
    Symbolic Regression is a powerful data-driven technique that searches for mathematical expressions that explain the relationship between input variables and a target of interest. Due to its efficiency and flexibility, Genetic Programming can be seen as the standard search technique for Symbolic Regression. However, the conventional Genetic Programming algorithm requires storing all data in a central location, which is not always feasible due to growing concerns about data privacy and security. While privacy-preserving research has advanced recently and might offer a solution to this problem, their application to Symbolic Regression remains largely unexplored. Furthermore, the existing work only focuses on the horizontally partitioned setting, whereas the vertically partitioned setting, another popular scenario, has yet to be investigated. Herein, we propose an approach that employs a privacy-preserving technique called Secure Multiparty Computation to enable parties to jointly build Symbolic Regression models in the vertical scenario without revealing private data. Preliminary experimental results indicate that our proposed method delivers comparable performance to the centralized solution while safeguarding data privacy.Comment: 8 pages, 8 figures, GECCO 202

    Arabidopsis thaliana unter Wasserstress: Transkriptionsprofile der MIP-Familie und von Genen aus dem Stress- und Sekundärstoffwechsel

    Get PDF
    MIPs (major intrinsic proteins) sind eine Gruppe von Transport-Proteinen, die ubiquitär in Archaea, Pro- und Eukaryoten zu finden sind. Neben spezifischen Wasserkanalproteinen (Aquaporine) sind einige Mitglieder dieser Familie permeabel für andere kleine und ungeladene Moleküle, wie z.B. Glycerin. Als Grundlage zur Funktionsaufklärung der 38 MIP-Mitglieder in A. thaliana wurden ihre transkriptionellen Reaktionen untersucht. Dazu wurde ein DNA-Array mit Sonden aus dem 3´-untranslatierten Bereich dieser Gene entwickelt, der die Unterscheidung der oft hoch homologen Mitglieder auf Transkript-Ebene zuließ, wozu längere cDNA-Sonden nicht geeignet sind. Eine TIP1;2 cDNA-Sonde, die Teile der kodierenden Sequenzen enthielt, zeigte in einem Hybridisierungsexperiment eine 40 %-ige Kreuzhybridisierung mit dem homologen TIP1;1. Die Spezifität der Sonden wurde in Zusammenarbeit mit dem Munich Information Center for Protein Sequences bioinformatisch überprüft. Das stringente Auswahlkriterium dieser Analysen, woraufhin eine Sonde bis zu einer 70 %-igen Homologie über 70 bp nicht kreuzhybridisiert, konnte auch experimentell gestützt werden. Der Vergleich der Signalintensitäten einer 172 bp langen, spezifischen Sonde mit einer 774 bp langen cDNA-Sonde ließ zudem darauf schließen, dass die Spezifität der verwendeten 3´-UTR-Sonden die Sensitivität nicht beeinträchtigte. Eine Organ-spezifische Expressions-Analyse zeigte, dass MIPs in allen untersuchten Organen (Wurzeln, Blätter, Stängeln, Blüten und Schoten) exprimiert werden. Die meisten MIPs (24 von 38) und die höchsten Expressionsniveaus wurden in der Wurzel detektiert. In Blättern konnten hingegen nur 11 von 38 MIP-Mitgliedern nachgewiesen werden. Die geringsten Expressionen zeigten die Mitglieder aus der NIP- und SIP-Subfamilie. Zu den am höchsten und in der Pflanze ubiquitär exprimierten MIPs zählten die PIP-Mitglieder PIP1;1, PIP1;2 und PIP2;1 sowie die TIP-Mitglieder TIP1;1 und TIP2;1, von denen bekannt ist, dass sie als Wasserkanal-Proteine fungieren. Die Möglichkeit, die Wasserpermeabilität von Membranen regulieren zu können, dürfte somit von zentraler Bedeutung in der ganzen Pflanze sein. Neben ubiquitär exprimierten MIPs sind einige nur ausschließlich oder bevorzugt in bestimmten Organen zu finden, z.B. PIP1;4, PIP2;6 und PIP2;7 in der Blüte und NIPs hauptsächlich in der Wurzel. Deren Funktion könnte neben einem Organ- oder Zell-spezifischen Wassertransport auch die Permeation anderer ungeladener Moleküle beinhalten, da die Transporteigenschaften dieser Mitglieder nicht geklärt sind. Das Expressionsprofil der MIP-Genfamilie in verschiedenen Organen sowie die unterschiedliche Reaktion auf Wasserstress (s.u.) lassen auf differenzielle Funktionen der einzelnen MIP-Mitglieder schließen. Lediglich TIP1;1 und TIP1;2 konnten nach diesen Kriterien nicht eindeutig unterschieden werden. Durch Zugabe von 100 mM NaCl und 200 mM Sorbiotol zu hydroponisch angezogenen A. thaliana-Pflanzen wurde über einen Zeitraum von 48 Stunden die transkriptionelle Reaktion der MIP-Familie auf diese Wasserstressbedingungen verfolgt. In Wurzeln wurde festgestellt, dass innerhalb der ersten 24 Stunden bei beiden Stressoren die hoch exprimierten PIP-Aquaporine PIP1;1 und PIP2;2 sowie PIP1;3 reprimiert, TIPAquaporine wie TIP1;1 und TIP2;1 zu diesem Zeitpunkt jedoch unbeeinflusst sind. Die Pflanze verringert demnach bei Wasserstress zuerst die Wasserpermeabilität der Plasmamembran, sofern sich die transkriptionelle Suppression auf Proteinebene widerspiegelt. Interessanterweise zeigte sich im Blatt eine frühe Repression der hoch exprimierten TIPAquaporine TIP1;1 und TIP2;1. Die in der Wurzel reagierenden Aquaporine aus der PIPSubfamilie zeigen im Blatt jedoch keine transkriptionellen Änderungen. Zusammenfassung 95 Diese frühen Repressionen von TIP1;1 und TIP2;1 lassen vermuten, dass es in Blättern wichtig ist, möglichst rasch unter Wasserstress die Wasserpermeabilität des Tonoplasten zu senken. Dies könnte der Stabilisierung des Zell-Turgors dienen und/oder mit einem verringerten Blattwachstum einhergehen. Die ähnlichen Transkriptionsantworten und Kinetiken der MIPs bei NaCl- und Sorbitolstress lassen zudem vermuten, dass MIPs auch unter NaCl-Stress primär auf die osmotische Veränderung in der Nährlösung reagieren bzw. über ähnliche Signalwege reguliert werden. Die parallele Untersuchung transkriptioneller Änderungen von bekannten Stress-Markergenen und Genen des Sekundärmetabolismus unter NaCl- und Sorbitolstress ergab zusätzliche Hinweise auf überlappende und Stressor-spezifische Reaktionen in Wurzeln und Blättern. Eine bekannte Reaktion auf Salz- und osmotischen Stress ist die Bildung von reaktiven Sauerstoff-Spezies, die sowohl als Signalmoleküle fungieren als auch Schädigungen verursachen können. Die Induktionen der beiden Peroxidasen GPX1 und PRXCB in Blättern und Wurzeln deuten auf eine Beteiligung bei Entgiftungsreaktionen von H2O2 unter Wasserstress hin. Einzelne Mitglieder aus der Familie der UDP-Glycosyltransferasen und Cytochrom P450-Monooxygenasen, wie UGT74F2 und CYP81D1, zeigten bei Salz- und Sorbitolstress überlappende Reaktionen, was darauf hindeutet, dass spezifische Teile des Sekundärstoffmetabolismus ähnlich beeinflusst werden. Daneben zeigten andere Mitglieder aus diesen Gen-Familien spezifische Reaktionen auf die beiden Stressoren. So waren in der Wurzel nach 48 Stunden Sorbitolstress viele CYPs und UGTs reprimiert. Die Pflanze scheint also exklusiv bei Sorbitolstress spezifische, in ihrer genauen Funktion noch unbekannte Teile des Sekundärmetabolismus zu supprimieren. Die unterschiedlichen Reaktionen einer Reihe weiterer Gene auf Salz oder Sorbitol in Blättern und Wurzeln identifizierten zudem differenzielle Stress-Antworten innerhalb der Pflanze. Es wurden zwei Insertionsmutanten in den MIP-Genen PIP2;1 und PIP1;4 isoliert. Transkript-Untersuchungen dieser Mutanten zeigten, dass durch das Ausschalten dieser PIPs alle anderen MIP-Mitglieder, sowohl bei ungestressten als auch unter NaCl-Stress- Bedingungen, keine Änderungen in ihrer Transkriptionsantwort im Vergleich zum Wildtyp zeigen. Möglicherweise besitzen die untersuchten PIP-Mitglieder eine spezifische Funktion, die andere MIPs nicht kompensieren können, oder möglicherweise kommt es in der Pflanze zu veränderten Reaktionen, die anhand der vorliegenden Untersuchungen nicht erkennbar waren

    Evolutionary Algorithms for Segment Optimization in Vectorial GP [Poster]

    Get PDF
    875441 Vektor-basierte Genetische Programmierung für Symbolische Regression und Klassifikation mit Zeitreihen (SymRegZeit), funded by the Austrian Research Promotion Agency FFG. It was also partially supported by FCT, Portugal, through funding of research units MagIC/NOVA IMS (UIDB/04152/2020) and LASIGE (UIDB/00408/2020 and UIDP/00408/2020).Vectorial Genetic Programming (Vec-GP) extends regular GP by allowing vectorial input features (e.g. time series data), while retaining the expressiveness and interpretability of regular GP. The availability of raw vectorial data during training, not only enables Vec-GP to select appropriate aggregation functions itself, but also allows Vec-GP to extract segments from vectors prior to aggregation (like windows for time series data). This is a critical factor in many machine learning applications, as vectors can be very long and only small segments may be relevant. However, allowing aggregation over segments within GP models makes the training more complicated. We explore the use of common evolutionary algorithms to help GP identify appropriate segments, which we analyze using a simplified problem that focuses on optimizing aggregation segments on fixed data. Since the studied algorithms are to be used in GP for local optimization (e.g. as mutation operator), we evaluate not only the quality of the solutions, but also take into account the convergence speed and anytime performance. Among the evaluated algorithms, CMA-ES, PSO and ALPS show the most promising results, which would be prime candidates for evaluation within GP.publishersversionpublishe

    A fine-grained requirement traceability evolutionary algorithm: Kromaia, a commercial video game case study

    Full text link
    [EN] Context:Commercial video games usually feature an extensive source code and requirements that are related to code lines from multiple methods. Traceability is vital in terms of maintenance and content update, so it is necessary to explore such search spaces properly. Objective:This work presents and evaluates CODFREL (Code Fragment-based Requirement Location), our approach to fine-grained requirement traceability, which lies in an evolutionary algorithm and includes encoding and genetic operators to manipulate code fragments that are built from source code lines. We compare it with a baseline approach (Regular-LSI) by configuring both approaches with different granularities (code lines / complete methods). Method:We evaluated our approach and Regular-LSI in the Kromaia video game case study, which is a commercial video game released on PC and PlayStation 4. The approaches are configured with method and code line granularity and work on 20 requirements that are provided by the development company. Our approach and Regular-LSI calculate similarities between requirements and code fragments or methods to propose possible solutions and, in the case of CODFREL, to guide the evolutionary algorithm. Results:The results, which compare code line and method granularity configurations of CODFREL with different granularity configurations of Regular-LSI, show that our approach outperforms Regular-LSI in precision and recall, with values that are 26 and 8 times better, respectively, even though it does not achieve the optimal solutions. We make an open-source implementation of CODFREL available. Conclusions:Since our approach takes into consideration key issues like the source code size in commercial video games and the requirement dispersion, it provides better starting points than Regular-LSI in the search for solution candidates for the requirements. However, the results and the influence of domain-specific language on them show that more explicit knowledge is required to improve such results.This work has been partially supported by the Ministry of Economy and Competitiveness (MINECO) through the Spanish National R + D + i Plan and ERDF funds under the Project ALPS (RTI2018-096411-B-I00).Blasco, D.; Cetina, C.; Pastor López, O. (2020). A fine-grained requirement traceability evolutionary algorithm: Kromaia, a commercial video game case study. Information and Software Technology. 119:1-12. https://doi.org/10.1016/j.infsof.2019.106235S112119Watkins, R., & Neal, M. (1994). Why and how of requirements tracing. IEEE Software, 11(4), 104-106. doi:10.1109/52.300100Rempel, P., & Mader, P. (2017). Preventing Defects: The Impact of Requirements Traceability Completeness on Software Quality. IEEE Transactions on Software Engineering, 43(8), 777-797. doi:10.1109/tse.2016.2622264Borg, M., Runeson, P., & Ardö, A. (2013). Recovering from a decade: a systematic mapping of information retrieval approaches to software traceability. Empirical Software Engineering, 19(6), 1565-1616. doi:10.1007/s10664-013-9255-yLandauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25(2-3), 259-284. doi:10.1080/01638539809545028Poshyvanyk, D., Gueheneuc, Y.-G., Marcus, A., Antoniol, G., & Rajlich, V. (2007). Feature Location Using Probabilistic Ranking of Methods Based on Execution Scenarios and Information Retrieval. IEEE Transactions on Software Engineering, 33(6), 420-432. doi:10.1109/tse.2007.1016Dit, B., Revelle, M., Gethers, M., & Poshyvanyk, D. (2011). Feature location in source code: a taxonomy and survey. Journal of Software: Evolution and Process, 25(1), 53-95. doi:10.1002/smr.567Arcuri, A., & Fraser, G. (2013). Parameter tuning or default values? An empirical investigation in search-based software engineering. Empirical Software Engineering, 18(3), 594-623. doi:10.1007/s10664-013-9249-9Stehman, S. V. (1997). Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment, 62(1), 77-89. doi:10.1016/s0034-4257(97)00083-7Apache opennlp: Toolkit for the processing of natural language text, 2017, (https://opennlp.apache.org/). [Online; accessed 12-November-2017].P. Abeles, Efficient java matrix library, 2017, (http://ejml.org/). [Online; accessed 9-November-2017].IGDA, International Game Developers Association, 2018.Lucia, A. D., Fasano, F., Oliveto, R., & Tortora, G. (2007). Recovering traceability links in software artifact management systems using information retrieval methods. ACM Transactions on Software Engineering and Methodology, 16(4), 13. doi:10.1145/1276933.1276934De Lucia, A., Oliveto, R., & Tortora, G. (2008). Assessing IR-based traceability recovery tools through controlled experiments. Empirical Software Engineering, 14(1), 57-92. doi:10.1007/s10664-008-9090-8Zou, X., Settimi, R., & Cleland-Huang, J. (2009). Improving automated requirements trace retrieval: a study of term-based enhancement methods. Empirical Software Engineering, 15(2), 119-146. doi:10.1007/s10664-009-9114-zUnterkalmsteiner, M., Gorschek, T., Feldt, R., & Lavesson, N. (2015). Large-scale information retrieval in software engineering - an experience report from industrial application. Empirical Software Engineering, 21(6), 2324-2365. doi:10.1007/s10664-015-9410-8Bavota, G., De Lucia, A., Oliveto, R., & Tortora, G. (2014). Enhancing software artefact traceability recovery processes with link count information. Information and Software Technology, 56(2), 163-182. doi:10.1016/j.infsof.2013.08.00
    corecore