1 research outputs found

    Оценка качества слабоструктурированных данных при сопоставлении независимых источников

    Get PDF
    Оценка качества данных является важной задачей при работе с большими объемами информации. В последние годы количество задач, связанных с использованием слабоструктурированных данных постоянно растет. Обработка таких данных представляет собой большую сложность, нежели данных, представленных в структурированном виде. Поэтому и так нетривиальная задача оценки качества данных становится еще более трудной. В этой работе предлагается подход к оценке качества данных, основанный на сопоставлении нескольких независимых источников. Метод позволяет оценивать качество с использованием различных критериев и метрик, учитывая типы данных и цели проводимой процедуры. Проведенные эксперименты демонстрируют высокую стабильность результатов применения метода.Data quality assessment is an important activity when working with large volumes of information. In recent years, the number of tasks associated with the use of semistructured data is constantly growing. The processing of such data presents a greater complexity than the data presented in a structured form. Therefore, the nontrivial task of quality assessment becomes even more difficult. This paper proposes an approach to assess data quality, based on a matching of two independent sources. The method allows evaluating the quality using various dimensions and metrics, taking into account the types of data and the purpose of the procedure. The results of the experiments demonstrate the high stability of the method
    corecore