12.2.2 非结构化数据处理系统
随着互联网的逐步发展,数据每天都在以惊人的速度增长,信息的种类也在不断地扩展。IBM公司的研究部门调查发现,全球大多数的信息是非结构化的,包括纸上的文件、报告、视频文件、音频文件、照片、传真件、信件等。由于内容的表现形式存在多样性,人们在对其进行管理和利用方面耗费了大量时间,所以迫切需要有效地将非结构化数据管理起来。
传统数据仓库以银行结构化数据为主,进行异构数据的整合、加工,进而提供服务。在大数据时代下,新兴的数据类型不断涌现,更多地呈现出一种非结构化的状态,传统关系型的数据仓库难以满足此类数据的存储及分析需求,因此涌现出了Hadoop、Spark等新型分布式数据库,相应地,单纯的数据仓库服务体系架构也逐渐向大数据服务体系架构演变。各银行纷纷启动面向海量非结构化数据的数据加工处理与分析系统的建设,并注重传统银行数据与新兴互联网金融数据的综合运用。
银行经营过程中产生和使用的数据主要分布于数据源系统、数据集成系统、分析型系统三类系统中。随着网络技术的发展、商业银行的业务发展以及客户接触渠道的多样化,银行的数据种类和数据量剧增,银行存储的客户数据、交易数据等结构化数据,以及电话语音、微博、即时通信等非结构化、半结构化数据都在飞速膨胀,尤其后者的增长速度远远大于前者。在强调数据即是价值的今天,任何一份数据都是银行珍贵的资产。为了一点金子,需要保存全部沙子,又如何从沙子里找出这一点金子?这些都是摆在商业银行前面的问题。大数据加工处理技术则很好地解决了这些问题。