金融企业早期的IT发展以应用系统建设为主,应用系统的主要功能是为了编制业务报表,这时候的特征是“记录型”系统,各业务部门站在支持本部门工作的角度,提出系统建设需求,数据来源通常大多只涉及本部门,系统开发表现为“轻数据、重功能”,业务数据是“信息孤岛型”的。
随着IT对业务的支撑能力增强,跨部门跨系统的协作增强,需要的是企业全局整体层面的共享型数据,早期建立的部门级、孤岛型的系统和数据越来越不能满足业务发展需要。数据质量的问题也日益影响数据统计分析的质量,包括数据逻辑问题,数据准确性问题,重复记录问题,数据缺失问题等。在业务操作和管理层面,数据质量问题不仅影响单个业务正常开展,还会影响与该业务相关的企业业务顺利开展;在决策层面,数据质量问题会影响到管理层的决策依据是否准确、客观。
那么评价数据质量的标准是什么呢?经过业界十多年的实践经验积累,数据质量可以用以下因素来度量,包括完整性、规范性、一致性、准确性、唯一性和关联性。如下图所示:
▌第一步 评估企业数据质量
如何提高数据质量,第一步是要对企业数据进行评估,从以下方面分析数据的质量:
完整性:所有必须的数据都存在吗?
符合性:数据都是以标准格式存储的吗?哪些数据是非标准数据?
一致性:数据与其代表的业务含义是否一致,哪些信息是自相矛盾的?
准确性:数据准确表示数据是否经过审核或者数据有可验证途径?
重复性:哪些数据记录是重复记录的,重复记录的原因是什么?
关联性:数据的重要关联关系是否记录,而是准确的?
时效性:数据的寿命是否满足用户要求?
针对以上几个方面,客户评价企业数据的质量状况,以及影响分析。
▌第二步 识别影响数据质量的因素
数据质量是数据分析和数据价值进一步挖掘的基础,没有良好的数据质量基础,近年来比较热门的管理驾驶舱、大数据分析等就成了空中楼阁,基础数据的不准确直接导致分析结论的不准确,那么,影响数据质量的因素有哪些呢?
根据统计分析,造成数据质量不佳的原因包括数据产生环节(也称数据源环节)和数据加工环节,具体如下:
1 ▏缺乏企业级的数据标准
由于缺乏统一企业级数据标准,造成不同部门对相同信息项的业务含义理解的不一致,比如账户余额,有的理解为期末余额,有的理解为期初余额。数据背后的业务含义不一致,直接导致统计结果的大相径庭。
2 ▏员工录入信息不准确
导致员工录入信息不准确主要是两个因素:
第一个因素,缺乏统一的录入标准和约束。比如客户名称,企业没有规定对公客户的名称是企业营业执照的全名,这样会导致出现各种不同的简称。
第二个因素,由于员工录入时引入了错误的信息,书写错误,比如身份证号码填写错误;或者信息理解错误,比如金额单位,直接把元看成万元;或者收集的信息不正确。
3 ▏新旧系统切换或数据的ETL过程问题
数据新旧系统切换,以及数据的抽取、转换和加载环节造成技术错误和非技术错误,包括数据的重复抽取、数据加载转换规则错误等。
企业在引用了数据质量不佳的外部数据。
4 ▏客户数据
客户录入的信息不准确。
5 ▏系统改造
系统改造时,数据的孤立修改,影响到上下游数据问题。
企业可对照上述的几个方面,识别出造成数据质量不佳的根本原因,进行有针对性的数据质量提升。
▌第三步 建立企业级统一的数据标准
无论是数据统计,还是大数据分析,建立企业级统一的数据标准是提高数据质量不可避免的环节。
人们发现,从部门级视角建立的系统,各系统的数据定义、数据采集自成体系,孤岛型数据的数据价值很难发挥出来,呈现出内部数据交换和外部数据交换两方面的问题。内部数据交换问题表现在同一信息在不同的系统需要重复录入;跨系统的数据定义存在二义性,相同业务含义的数据在不同系统中表现形式不同,不同业务含义的数据在不同系统表现上相同,造成数据统计、分析的困难和不准确。外部数据交换问题表现在当需要与上级部门和子公司交换信息时,由于数据定义的不统一,造成数据报表需要手工作业。
以客户名称为例,由于缺乏统一的数据规范,客户名称在系统中录入的简称随意,同一用户的名称繁多,造成用户管理和用户市场策略不能顺利推行。
数据标准是为了使企业内外部使用和交换的数据是一致和准确的,经协商一致制定并由相关主管机构批准,共同使用和重复使用的一种规范性文件。数据标准化是通过一整套的数据规范、管控流程和技术工具来确保银行的各种重要信息,包括产品、客户、机构、财务、项目等在全企业内外的使用和交换都是一致、准确的过程。
数据标准化体系三要素:
数据标准字典,描述数据信息项的业务属性、技术属性和管理属性,业务属性包括信息项中文名称、英文名称、业务含义、使用 规则;技术属性包括数据类型和长度等;管理数据包括数据标准的管理部门、管理责任人、源系统等。
数据标准管理规范和流程,为数据标准持续有效更新维护,以及数据标准落地执行保驾护航。
数据标准管理系统,提供数据标准查询和内容维护,以及数据标准在数据结构中的检核机制。
▌第四步 数据标准落地执行
数据标准的落地包括两个层面,一个是业务层面落地,二是IT层面。
数据标准在业务层面落地,是数据标准落地的关键环节。包括
业务部门在制定管理规范和工作手册时,信息项名称和业务含义,要与数据标准一致。
业务人员在进行信息项录入的时候,数据内容要与业务含义一致。
业务人员在提系统建设需求时,信息项名称、业务含义应与数据标准一致。
在IT层面的落地,包括新系统建设和老系统改造。新系统建设时,系统数据模型,以及数据库字段设计都应遵从数据标准;老系统改造,是指原有系统根据业务需求,对关键业务指标进行改造。老系统中的信息项与数据标准检核,结果是标准遵从、部分遵从和不遵从,对于部分遵从和不遵从的部分,进行修改、合并、分拆或删除,使之与标准一致。在制定数据标准改造方案时,要对上下游数据的影响进行判断,及时通知上下游系统数据项的变化,共同分析变化的影响以及应对措施。
数据标准的落地和执行,让数据有章可循,有规则可依,可以极大地提高数据质量。
▌第五步 建立以元数据为基础的数据质量体系
简单地说,元数据是数据的数据,也就是数据的属性。数据库中的录入的数值,比如金额3,它不是孤立的数值,而是有其业务含义和使用规则,也即业务属性,只有在明确其业务属性的情况下,才能对其进行分析和利用。此外,它还有技术属性、管理属性、上下游关系等。
采用元数据管理的方法,即数据属性管理的办法,将数据的业务属性、技术属性和管理属性明确下来,这样明确的业务属性可以消除业务二义性;统一的技术属性有利于数据的逻辑集中;明确的管理属性有利于数据质量职责清晰,管理责任清晰。
另外,建立元数据为基础的表级血统分析、影响分析,字段级血统分析、影响分析,明确数据之间的上下游关系,一方面便于对数据进行影响分析,另一方面,便于数据的维护和故障排查。
▌第六步 数据质量检核和持续完善
针对企业数据质量问题产生,可以从以下方面提升数据质量:
1 ▏针对员工录入问题,可以制定数据检核规则,持续进行数据质量检核
对于数据录入的逻辑错误,设置检核规则,比如首笔贷款发放时间不能早于合同签订时间。对于员工输入笔误,比如身份证信息,用身份证检核规则进行检查。对于用户名称输入不准确的情况,可以与用户标准库的用户名称进行比对,检查其是否与标准名称相符。
针对员工信息掌握不准确的问题,从流程审核上进行控制,关键数据和信息输入需要有人员审核,也就是将记录型系统改造成流程型系统。
另外,在应用系统的输入页面,增加输入项解释、非空判断,对于其它系统里已有的信息,通过建立关联关系导入系统,避免重复录入。员工填写信息时,尽量地让用户对输入信息进行选择,而不是完全手工输入信息。
2 ▏新旧系统切换或数据的ETL过程问题
新旧系统切换时,仔细分析新旧系统数据项的业务含义,识别出具有二义性的信息项,比如不同系统中相同的名称,其业务含义不一样,对这样的信息要进行仔细分析。同时,避免重复导入,避免技术问题引入问题数据。
3 ▏客户数据录入
客户数据录入时,增加对录入数据的判断和检查。对于可以标准化枚举的信息项,尽量让客户选择,而不是手工输入,这样保证数据的规范性。
4 ▏系统改造
建立以元数据为基础的数据血缘分析,当系统改造时,采用该工具分析系统改造对本系统数据的影响,以及上下游的关联影响。
总之,数据质量管理贯穿数据的全生命周期,是一个长期的、需要持续开展的工作,需要业务人员和技术人员共同努力,才能获得高质量的数据,满足数据的完整性、规范性、一致性、准确性、唯一性和关联性需求,持续提升企业的数据价值,支持业务管理和业务决策。
想了解更多IT资讯,请访问中培教育官网:中培教育