价值与目标
价值
高质量数据本身不是目的,其价值是为公司提供经营、决策的一种手段,在数据驱动业务的思路下,决策依靠报表、经营依靠数据分析,一切都建立在数据之上,因此有必要建设数据质量体系,提高经营、决策的基础数据支撑能力。
目标
- 定义一种技术和业务平衡的、受管理的方法,使数据适合要求。
- 定义一个指标集合,用来量化评价数据质量。
- 定义数据质量控制的标准和规范,作为整个数据生命周期的一部分。
模型与标准
采用国标《GB/T36344-2018信息技术数据质量评价指标》的规范,在第三级定义若干具体可实现的标准。
- 规范性
- 数据标准
- 字段命名是否符合标准。
- 数据模型
- 元数据
- 业务规则
- 权威参考数据
- 安全规范
- 数据标准
- 完整性
- 数据元素完整性
- 技术完整性。必填字段是否缺失。
- 数据记录完整性
- 业务完整性。满足最小业务含义的一组关联字段,是否有缺失。
- 数据元素完整性
- 准确性
- 数据内容正确性
- 数据格式合规性
- 字段映射是否在字典内。
- 数据类型是否符合标准。
- 数据重复率
- 数据唯一性
- 脏数据出现率
- 一致性
- 相同数据一致性
- 关联数据一致性
- 时效性
- 基于时间段的正确性
- 调度作业是否报错。
- 调度工作流是否报错。
- ods、dws、dwd、ads 各层数据加工时是否出错。
- 基于时间点的及时性
- 调度作业是否在规定时间前计算完成。
- 时序性
- 基于时间段的正确性
- 可访问性
- 可访问
- 承诺时间内,查询数据是否能返回。
- 可用性
- 可访问
- 其他特性(扩展国标)
- 可监控性
- 关键数据1是否有监控覆盖。
- 关键数据监控是否报异常。
- 可监控性
评价
指标
国标一级 | 国标二级 | 指标 | 含义 | 计算公式 | 影响权重 |
---|---|---|---|---|---|
规范性 | 数据标准 | 命名规范率 | 字段命名是否符合标准 | 字段规范性的平均值 1 - 不符合命名的字段 / 检视字段 注:检视字段不一定是所有字段,检视字段是挑出来接受数据质量评价的字段。 |
5% |
完整性 | 数据元素完整性 | 必填字段值完整率 | 必填字段的值是否缺失 | 字段值完整率的平均值 1 - 必填字段空值数量 / 所有值 |
5% |
完整性 | 数据记录完整性 | 业务含义完整率 | 满足业务最小含义的一组关联字段,是否有缺失 | 关联字段完整率的平均值 1 - 一组关联字段内的缺失值数量 / 所有关联字段的数量 |
5% |
准确性 | 数据格式合规性 | 映射合规率 | 字段映射是否在字典内 | 映射合规率的平均值 1 - 不在字典映射内的值数量 / 所有值数量 |
5% |
准确性 | 数据格式合规性 | 类型合规率 | 数据类型是否符合标准 | 类型和规律的平均值 1 - 不符合类型的值的数量 / 所有值数量 |
5% |
时效性 | 基于时间段的正确性 | 调度作业成功率 | 任务是否报错 | 1 - 作业报错个数 / 所有执行任务总个数 | 15% |
时效性 | 基于时间段的正确性 | 调度工作流成功率 | 工作流是否报错 | 1 - 工作流报错个数 / 所有执行工作流总个数 | 15% |
时效性 | 基于时间段的正确性 | 数据加工成功率 | ods、dw、ads 各层数据加工时是否出错 | 1 - 数据加工出错次数(本周) / 数据加工出错次数(近四周) | 15% |
时效性 | 基于时间点的及时性 | 调度工作流完成率 | 工作流是否在时间范围计算完成 | 1 - 工作流超时完成数量 / 所有执行工作流数量 | 10% |
可访问性 | 可访问 | 查询结果及时率 | 承诺时间内,查询数据是否能返回 | 1 - 超时返回SQL数量 / 所有执行的SQL数量 注:应在报表与数据分析范围内。 |
5% |
其他特性 | 可监控性 | 监控覆盖率 | 重点数据是否有监控覆盖 | 1- 重点监控数量 / 所有重点数据表 | 15% |
其他特性 | 可监控性 | 监控告警率 | 重点监控数据是否告警 | 1 - 重点监控告警数量 / 所有重点监控数量 | 15% |
得分公式
\[得分 = \sum{i=0}^{n} 指标i \times 权重_i\]Proof of Concept
步骤包括:
- 确定要评估的数据。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
- 识别数据的用途和数据的使用者。沟通评价机制。
- 根据标准检查数据,对数据质量进行打分。
- 记录问题的级别和问题类型。
- 根据初步发现进行额外的深入分析,以便:
- 量化结果。
- 根据业务影响优化问题。
- 提出关于数据问题根本原因的假设。
- 与数据分析师、业务方会面,确认问题和优先级。
- 使用调查结果作为规划的基础。
- 解决问题,最好是找到问题的根本原因。
- 控制和改进处理流程,以防止问题重复发生。
- 持续控制和汇报。
参考
【腾讯文档】数据质量的衡量指标 https://docs.qq.com/sheet/DR29BWldMWmdPdnBS
-
业务关键程度。以业务收入利润、流水量进行排名。数据关键程度。以数据量进行排名。 ↩