▌问题描述
与数据打交道时,通常面临诸多挑战:
数据无法解释自身含义。必须有人对数据进行解释,包括数据的含义,如何正确使用数据,以及如何评估数据的质量好坏。
数据通常是共享的,数据会被多个部门人员会用于多种目的。那么数据所有权归谁?谁对数据的处理进行决策?谁对“出错”的数据承担责任?
许多使用数据的业务流程依靠流程的上游工作人员“确保数据准确”。但是,谁来判定数据的“准确性”呢?数据“出错”时又是谁来判定呢?
软件开发生命周期需要频繁对数据进行规范、分析、设计、组建、及使用操作。很多情况下,这些操作有可能破坏数据,威胁到数据质量。
负担数据实施工作的技术人员往往对数据的含义及其使用方式不熟悉。
数据处理领域存在对数据的含义和内容描述不够严格的问题,而且对这一问题长期以来一直采取容忍态度。
以上这些因素会导致无法区分到底是对数据的理解不到位,还是数据质量不高。这种困局需要通过对数据的积极、高效管理得以解决。另外,许多公司所采用整理元数据(Metadata)方法是一种不太严格的“方法论”,这种方法并不等于真实、有效的数据管理。元数据在实践中常见的失误包括以下几个方面:
数据定义:这些信息通常由项目成员较为草率地起草,数据的定义也没有在企业范围内标准化,造成同一术语的多次定义,而且通常是以不同的数据信息项(Data Element)名称出现的。
数据质量:如果数据质量规则没有明确定义,那么质量本身就无从谈起。甚至有时即便规则定义了,但是质量规则的文本内容却被忽视了。这样会导致对所要求的数据质量标准模糊,无法确保数据质量水平。
数据文档:元数据的有关文档很少公开,甚至有时会被束之高阁。有关文档不能被轻松读取或者查询到有关内容。
产生及使用数据的业务规则:经常遇到这种问题:在什么条件下应该产生针对某个实体(比如客户或者产品)的数据,以及这个数据的操作方法是什么?理解上的偏差会导致针对目标实体信息搜集的不完整或者不准确,并且容易造成数据被用于无关的用途。最终的后果是基于这种数据的业务决策不是最优结果。
正规的企业级数据管控是数据治理的一部分,对于被管理的数据,以及对解决前面所述的各种问题至关重要。通过数据管控,企事业单位才能开始将数据作为资产看待。类似其他资产,数据需要有库存管理、所有权界定、使用规则定义、以及准确描述。数据需要有别于物理资产的管理技术,但需求是相同的。对于数据资产,库存管理和准确描述可以通过正式公布业务术语表完成,可以和元数据表一同发布。所有权界定需要知道数据的收集方式,以及谁在使用数据,然后才能判断谁更适合对数据内容以及数据信息项质量负责。最后,使用规则包括理解和管理数据的产生过程、产生原因、以及在新的条件下是否还适合使用。
▌什么是数据治理
数据治理存在多种定义,美国数据治理协会(DGI)对其定义如下:
数据治理是针对数据相关事项行使督导决策权。数据治理是针对信息相关流程的决策权和审查权系统,所行使的权力是依据事先达成的模型,该模型描述了根据不同信息可以采取的处理行为,其中包括何时、在何种情况下、可以使用何种处理方法。
以上定义的关键信息是数据治理实践更多地是指管理人员如何管理数据,是对管理人员职责的定义,而不是对数据本身的定义。也就是说,数据治理,包括数据管控,都是关于如何有效组织管理人员按照正确的流程确保数据被理解、被信任、具备高质量,并且最终能使数据适用于企事业单位的使用目的。
▌什么是数据管控
数据管控是数据治理的执行层面,即日常的数据治理工作如何开展,可以定义为:
数据管控是指数据治理的一种具体方式,是规范如何作为代理人管理信息资源的问责制度,从而为机构获取最佳利益。
数据管控定义中所指的“代理”是指代表所在机构的数据治理委员会(Data Governance Board)行使职权,而数据治理委员会代表了数据所有权方(即所在机构)的业务职能。换句话说,数据管控包括了管理人员、机构和流程,它确保所安排的数据管控人员对所治理数据的职责。
数据管控对数据治理的成功非常重要。因为通过数据管控机制,所有的元数据(包括定义、业务规则等信息)能够得到有效整理和文档化。而且,通过设置对特定数据负责的数据管控人员,以及颁布所管控数据的处理流程,可以确保所有有关的决定都是基于了解的基础上作出的,同时也能为使用数据的人员保证最佳效果。通过有机结合专门的数据管控人员、流程、以及为全体人员利益着眼的数据管理目标,数据资产的质量才能得到有效提高,并且这种高质量数据才能驱动机构的竞争优势并确保业务的合规性。
▌数据管控的总体目标
一套“好的”数据管控系统具备哪些特征?即数据管控体系所肩负的目标是什么?以下列出主要特征:
设立数据管控咨询委员会
建立政策和流程,并融入企业文化
设立业务数据管控岗,所有拥有数据的业务部门必须参与。不拥有数据的业务部门不参与。数据治理和数据管控应包括外部业务协作单位。
设立技术数据管控岗,涉及所有的企业应用、数据仓库和ETL流程。
数据管控需要参与到企业项目管理、系统开发中。数据管控需要被看待成数据管理的有机组成部分。
所有的数据管理岗职责需要明确定义,相应的效绩考核措施也需要建立。
全员参与的数据管理需要成为企业文化的一部分。
公司管理层的支持。领导层需要在公开场合支持并推广有关数据管控条例。
数据管控的效绩需要明确并认可。
关键的业务数据信息项需要整理、定义并明确业务规则。条件允许,数据需要规范化以提高数据质量。
数据管控决策需要明确地文档化,并通知给相关方。
所有数据相关方(包括数据管控人员、项目经理、开发人员)需要接受定期培训。
配备相关的数据管理工具(例如元数据库、业务术语表、问题日志、数据规范化工具),并且经常使用。
鼓励在数据质量维护和修复数据故障中的创新措施,以及创新地使用高质量数据提高企业竞争力。
有关人员跟踪重要的数据管理技术创新能力,包括相应的适应能力。
通过并颁布相关的数据管控流程,包括:
鉴别关键业务数据信息项
搜集、整理、通过有关的业务元数据
记录、分析、修复数据及数据质量问题
对项目的支撑保障
管理数据域
必要时调整数据管控岗
讨论分析数据质量提高方案
公布数据管控的工作业绩和方法
▌结束语
数据治理的成败关键在于建立有关机构和有关人员的构成。其中最重要的一环是数据管控人员的配备和组织工作,他们必须协同工作确定有关数据的所有权、含义以及质量标准。如果没有数据管控委员会的正常运转,数据治理工作就无法取得预期效果。
想了解更多IT资讯,请访问中培教育官网:中培教育