在大数据时代,高质量的数据已经成为个政府、企业、研究机构和社会的重要资源与财富。但是随 着数据规模的持续高速增长,人们在获取更加丰富、多样的数据同时,也必须面对数据质量管理方面的 一系列全新挑战,因此亟需研究能够适应海量、动态、多源、异构数据并贯穿整个数据生命周期的数据 质量管理,特别是以用户需求为中心的差异化数据质量保证机制。本项目拟研究一种面向用户自定义需 求的通用化数据质量管理机制,重点研究具有通用性和可伸缩性的数据数质量管理机制与方法,使其能 够柔性适配不同领域、不同要求的数据质量标准,支持用户对个性化数据质量要求的灵活、非过程化描 述;对大规模动态复杂数据,拟采用数据挖掘技术从底层数据出发生成各种与数据质量相关的数据特征 表述和度量,并从高层数据质量定义对数据进行约束检验和数据清洗,最终提供诸如关系数据库中的约 束条件保证的数据质量保证。