清洗规则
2025/8/27大约 2 分钟
定义
本模块用于配置和管理各类数据清洗规则,旨在提升数据的准确性、完整性、一致性、唯一性、有效性及及时性,确保数据在进入中台前达到高质量标准。
覆盖的核心清洗类型:
- 🎯 准确性修正:处理数据中的错误或不一致值,如异常值修正、格式标准化等;
- ✅ 完整性修复:填补缺失数据、删除无效记录,保障数据完整性;
- 🔄 一致性修正:统一单位、格式、值域等,消除跨字段/表差异;
- 🔑 唯一性维护:进行去重、合并等操作,避免数据重复;
- 🛡️ 有效性处理:替换非法值、剔除脏数据,确保字段取值合法;
- ⏱️ 及时性调整:修正时间字段异常、填补时间缺失,提升时间数据准确性。
管理功能说明:
聚焦于提升数据的准确性、完整性、一致性、唯一性、有效性和及时性,涵盖数值边界调整、字段类型转换、格式标准化、字段补全与截断、空值填充、重复记录处理、非法值替换、敏感词过滤、时间修正等多类修复策略。通过配置化方式对脏数据进行识别与修正,实现数据格式统一、值域规范、逻辑合理、结构完整,为后续的数据治理与分析应用提供可靠基础。
- 建立清洗规则分类体系,支持一级、二级分类
- 基本信息可配置但不限于:
- 编码
- 名称
- 描述
- 使用场景
- 示例
注意事项
系统将预设数十种清洗规则。如需新增,需每个规则编码必须与系统后台已实现的清洗逻辑保持一致,规则配置仅在编码与逻辑双向匹配时才能生效。 且增删改查需要自行插入表数据!
作用范围
清洗规则页面
点击【基础管理】-> 【规则管理】下的【清洗规则】,进入清洗规则页面。页面采用左右布局:左侧以树形结构展示质量维度,右侧显示规则列表,包含规则名称、规则描述、规则级别、规则类型等字段。
