数据质量体系(暨评价标准)

| 分类 BIGDATA  | 标签 数据质量 

价值与目标

价值

高质量数据本身不是目的,其价值是为公司提供经营、决策的一种手段,在数据驱动业务的思路下,决策依靠报表、经营依靠数据分析,一切都建立在数据之上,因此有必要建设数据质量体系,提高经营、决策的基础数据支撑能力。

目标

  1. 定义一种技术和业务平衡的、受管理的方法,使数据适合要求。
  2. 定义一个指标集合,用来量化评价数据质量。
  3. 定义数据质量控制的标准和规范,作为整个数据生命周期的一部分。

模型与标准

采用国标《GB/T36344-2018信息技术数据质量评价指标》的规范,在第三级定义若干具体可实现的标准。

  • 规范性
    • 数据标准
      • 字段命名是否符合标准。
    • 数据模型
    • 元数据
    • 业务规则
    • 权威参考数据
    • 安全规范
  • 完整性
    • 数据元素完整性
      • 技术完整性。必填字段是否缺失。
    • 数据记录完整性
      • 业务完整性。满足最小业务含义的一组关联字段,是否有缺失。
  • 准确性
    • 数据内容正确性
    • 数据格式合规性
      • 字段映射是否在字典内。
      • 数据类型是否符合标准。
    • 数据重复率
    • 数据唯一性
    • 脏数据出现率
  • 一致性
    • 相同数据一致性
    • 关联数据一致性
  • 时效性
    • 基于时间段的正确性
      • 调度作业是否报错。
      • 调度工作流是否报错。
      • ods、dws、dwd、ads 各层数据加工时是否出错。
    • 基于时间点的及时性
      • 调度作业是否在规定时间前计算完成。
    • 时序性
  • 可访问性
    • 可访问
      • 承诺时间内,查询数据是否能返回。
    • 可用性
  • 其他特性(扩展国标)
    • 可监控性
      • 关键数据1是否有监控覆盖。
      • 关键数据监控是否报异常。

评价

指标

国标一级 国标二级 指标 含义 计算公式 影响权重
规范性 数据标准 命名规范率 字段命名是否符合标准 字段规范性的平均值
1 - 不符合命名的字段 / 检视字段
注:检视字段不一定是所有字段,检视字段是挑出来接受数据质量评价的字段。
5%
完整性 数据元素完整性 必填字段值完整率 必填字段的值是否缺失 字段值完整率的平均值
1 - 必填字段空值数量 / 所有值
5%
完整性 数据记录完整性 业务含义完整率 满足业务最小含义的一组关联字段,是否有缺失 关联字段完整率的平均值
1 - 一组关联字段内的缺失值数量 / 所有关联字段的数量
5%
准确性 数据格式合规性 映射合规率 字段映射是否在字典内 映射合规率的平均值
1 - 不在字典映射内的值数量 / 所有值数量
5%
准确性 数据格式合规性 类型合规率 数据类型是否符合标准 类型和规律的平均值
1 - 不符合类型的值的数量 / 所有值数量
5%
时效性 基于时间段的正确性 调度作业成功率 任务是否报错 1 - 作业报错个数 / 所有执行任务总个数 15%
时效性 基于时间段的正确性 调度工作流成功率 工作流是否报错 1 - 工作流报错个数 / 所有执行工作流总个数 15%
时效性 基于时间段的正确性 数据加工成功率 ods、dw、ads 各层数据加工时是否出错 1 - 数据加工出错次数(本周) / 数据加工出错次数(近四周) 15%
时效性 基于时间点的及时性 调度工作流完成率 工作流是否在时间范围计算完成 1 - 工作流超时完成数量 / 所有执行工作流数量 10%
可访问性 可访问 查询结果及时率 承诺时间内,查询数据是否能返回 1 - 超时返回SQL数量 / 所有执行的SQL数量
注:应在报表与数据分析范围内。
5%
其他特性 可监控性 监控覆盖率 重点数据是否有监控覆盖 1- 重点监控数量 / 所有重点数据表 15%
其他特性 可监控性 监控告警率 重点监控数据是否告警 1 - 重点监控告警数量 / 所有重点监控数量 15%

得分公式

\[得分 = \sum{i=0}^{n} 指标i \times 权重_i\]

Proof of Concept

步骤包括:

  1. 确定要评估的数据。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
  2. 识别数据的用途和数据的使用者。沟通评价机制。
  3. 根据标准检查数据,对数据质量进行打分。
  4. 记录问题的级别和问题类型。
  5. 根据初步发现进行额外的深入分析,以便:
    1. 量化结果。
    2. 根据业务影响优化问题。
    3. 提出关于数据问题根本原因的假设。
    4. 与数据分析师、业务方会面,确认问题和优先级。
    5. 使用调查结果作为规划的基础。
  6. 解决问题,最好是找到问题的根本原因。
  7. 控制和改进处理流程,以防止问题重复发生。
  8. 持续控制和汇报。

参考

【腾讯文档】数据质量的衡量指标 https://docs.qq.com/sheet/DR29BWldMWmdPdnBS

  1. 业务关键程度。以业务收入利润、流水量进行排名。数据关键程度。以数据量进行排名。 


上一篇     下一篇