5 research outputs found

    Mining data quality rules based on T-dependence

    Get PDF
    Since their introduction in 1976, edit rules have been a standard tool in statistical analysis. Basically, edit rules are a compact representation of non-permitted combinations of values in a dataset. In this paper, we propose a technique to automatically find edit rules by use of the concept of T-dependence. We first generalize the traditional notion of lift, to that of T-lift, where stochastic independence is generalized to T-dependence. A combination of values is declared as an edit rule under a t-norm T if there is a strong negative correlation under T-dependence. We show several interesting properties of this approach. In particular, we show that under the minimum t-norm, edit rules can be computed efficiently by use of frequent pattern trees. Experimental results show that there is a weak to medium correlation in the rank order of edit rules obtained under T_M and T_P, indicating that the semantics of these kinds of dependencies are different

    Detecting data inconsistencies with tuple-level constraints

    No full text
    De laatste decennia is het besef gegroeid in allerhande sectoren (gezondheidszorg, sport, verkoop, industrie...) dat het verzamelen en analyseren van (big) data vele voordelen met zich mee kan brengen, mede door het toenemende belang van artificiële intelligentie. Een van de grootste uitdagingen is, echter, dat men moet kunnen garanderen dat de kwaliteit van deze data voldoende hoog is, zodat de verworven inzichten ook voldoende betrouwbaar zijn. De bijdragen die voorgesteld worden in dit doctoraat helpen om deze kwaliteitsproblematiek verder aan te pakken. Specifiek ligt de focus van dit doctoraat op het automatisch detecteren van inconsistenties in datasets door middel van regelgebaseerde methodieken. Meerbepaald worden verschillende soorten semantische kwaliteitsregels die inwerken op individuele tuples van datasets voorgesteld als een effectief en efficiënt mechanisme om de meest waarschijnlijke locaties van consistentiefouten in data-objecten te vinden. Voor elk van dit soort kwaliteitsregels worden bepaalde problemen die als fundamenteel worden beschouwd binnen de context van regelgebaseerde systemen (bv. ontginning, implicatie, detectie...) uitgebreid onderzocht. Om tegemoet te komen aan de uitdagingen die (big) data tegenwoordig met zich meebrengen, wordt er hierbij steeds een doordachte afweging gemaakt tussen efficiëntie, kwaliteit en toepasbaarheid van de mogelijke oplossingen

    Dynamic repair of categorical data with edit rules

    No full text
    In this paper, a dynamic setting for data quality improvement is studied. In such a setting, there is a repeated search for data quality rules and a fix of their violations until stability is reached. The constraints considered here are simple constant edit rules and searching is done via association analysis. Repair of violations relies on the set cover method. This paper contributes to the field of data quality in three ways. First, it is shown that with appropriate filtering, association analysis is an appealing tool to discover data quality rules with high precision. Second, when edit rules are limited to logical implications such as association rules, then under reasonable circumstances, time complexity of rule implication reduces from exponential to quadratic. This result is formalized as the strong generator theorem. Third, a detailed analysis of data repair in a dynamic setting is provided and the conditions for termination are shown. Empirical results indicate that if the initial precision of rules is high, then repeated search-and-repair offers a boost in recall with a mitigated drop in precision

    Cleaning data with selection rules

    No full text
    corecore