8.1 数据生命周期管理及意义
数据的生命周期管理最初是由美国的存储技术公司StorageTek提出来的,经过这些年的发展和宣传,目前逐渐开始进入市场化阶段。数据的生命周期管理作为一项企业信息化战略,是一项相对长期的工作。
早期银行的金融产品较少,主要以存贷汇为主,而且数据以省(市)为单位分布存放,数据量相对较少。此外,由于还没有数据集中挖掘与分析的需求,日常处理对象主要是短期数据,时间跨度小,处理的数据规模相对可控。但是,随着各家银行的数据大集中以及业务的快速发展,客户群体越来越大,客户发生的交易行为也越来越频繁,尤其是在大数据、互联网金融时代,银行业集中存放和处理的数据量急剧增加,有些银行的数据容量甚至达到了PB级。有种说法是:“今天一个现代人一天所吸收的信息,比莎士比亚一生所获得的信息还要多。”由此可见,当今社会信息量是呈爆发式增长的。对银行来说,一方面数据成为银行的重要资产,对于分析客户行为、评价客户信用、提升营销精准度等方面都起到了重要的作用;但是,另一方面日益增大的数据量对系统存储、访问效率造成越来越大的压力。因此,必须权衡效率和需求之间的关系,合理保留数据。
正常情况下,数据生成时间越长,其获得的访问频率则越低。但是,数据总量越来越大,如果将不活跃的数据进行迁移,则可以降低企业的拥有成本。
数据生命周期中数据生成时间、数据访问频率、数据总量等参数间的关系如图8-1所示。
倘若不对数据进行有效的数据生命周期管理,则会出现系统问题。例如,数据增长过快导致的系统资源浪费;又如,表数据量过大导致访问效率过慢等情况。以某商业银行为例,早期因为没有进行势据生命周期管理,出现了各种问题,极大地影响了系统服务效率和客户服务水平。从以下两个例子可以看出数据生命周期管理的重要性。