随着云时代的来临,大数据 (BigData) 吸引了越来越多的关注,数据已成为一种资源,企业内部的经营交易信息、互联网世界中的商品物流信息、人人交互信息、位置信息、物联网、车联网等产生的信息无时无刻不在产生着大量数据,其数量将远远超越现有企业 IT 架构的承载能力。中培教育IT常青树有关专家将在这里将重点分析传统企业级分析系统向大数据分析系统演进的必然性。
传统架构的约束与困局
数据尤其是大数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来,大数据的累积效应正给整个IT业带来变革。特别是云概念和大数据技术的深入发展,日均GB、TB级的数据量对企业级大数据压力与日俱增,而IDC的大规模建设更是加剧了这一趋势。
目前,传统的小型机+传统盘阵+关系型数据库的IOE架构存在着一定的弊端,无法适应当前企业级大数据平台的需求,具体表现在:
数据源匮乏:数据主要来源于业务支撑域各系统、支撑服务对象较少,数据质量不高,无法满足对企业管理、市场营销支持、网络生产管理等全面支撑;
维护费用偏高:不能满足大数据时代低成本要求、传统的小型机盘阵架构所占用的机房空间、耗电量、散热量及每年高额的维保费用偏高,与绿色节能减排的宗旨相违背;
架构层面不够灵活:扩展性不足,设备性能的提升依赖于设备硬件的扩展及软件的升级,小型机的单机扩展能力有限,当应用资源需求超越小型机的极限时,小型机就变得无能为力。同时小型机价格比较昂贵,性价比差,多套主机共享一套存储的集中处理模式对于系统的运行、I/O口读写速率都造成极大的负荷;
数据库瓶颈:目前Gb和Gn等接口的部分信令数据,经过爬虫系统提取的互联网URL等数据存在着大量非结构化数据,而目前存在的数据库多为Oracle和DB2类的关系型数据库,非关系型数据库技术并未被得到深化应用。
应用层缺乏实时性:目前上层应用多为离线处理或准实时性,影响用户感知,支撑服务对象较少。
由此可见,现有的企业级分析系统的发展并不能与未来企业信息化发展的脚步同步;而分析系统的数据特点决定其与大数据技术的结合的必要性。因此,逐步完善企业级分析系统,构建数据融合的大数据平台是今后企业大数据平台的发展趋势之一。
基于大数据企业级分析系统演进的必然性
基于大数据企业级分析系统是在现有的企业IT架构基础上进行补充完善,满足系统建设的平滑过渡;包括架构调整,数据源的扩充、整合、统一及平台的对外开放等。传统分析系统与基于大数据的分析系统的差异性如表一所示。
表一、分析系统比较
图一是典型的基于大数据的企业级分析系统架构,包括数据源、采集层、数据层、能力层和应用层。
图一、基于大数据的企业分析系统架构
对现有传统的IT架构演进过程如图二所示,主要包括如下步骤:
扩充数据源,沉淀企业数据资产:逐步打通B、M、O三域壁垒,构建IT共享资源池,具体可采用大二层技术来扩展二层网络,逐步将三域纳入同一个大二层范围内,一方面有利于扩大分析系统数据源,另一方面更有利于同一个大二层下的云化实施,此外为用户曾将基础属性数据,实现企业大数据平台多维全量的用户数据,包括:基础属性、位置信息、用户喜好标签,更便于实时精准营销,提高用户粘性,延长用户生命周期。
采用云ETL替代传统ETL,构建企业级的采集平台。ETL指针对数据源进行提取(Extract)、转置(Transform)、加载(Load)。在分析系统中原有ETL智能实现对业务单域数据的采集处理、为实现对全域数据的采集,构建企业级云ETL采集层。
图二、分析系统演进过程
加大X86系统占比,逐步实现由小型机向X86服务器的迁移。根据分析系统定义的不同重要级别,例如可按照等级由高到低的顺序对数据库、采集、重要应用、一般应用等来逐步实施。并且,由于数据库体量庞大,对设备要求较高且目前业界并无针对数据库X86化的专有成熟技术,需谨慎考虑数据库的X86 化。目前阶段建议采用混搭、多架构并存的模式:对于不同的数据类型部署不同架构,除传统基础数据仓库外,搭建适配各类数据库的专有数据仓库。针对关系型数据库尽量部署MPP脚骨,以优化架构,针对非结构化数据库实施Hadoop技术。对于关系型事务处理类数据,为保持系统的平滑过渡,可维持原有关系型数据库,保持原有架构;互联网信令类数据,由于随机性加大,关联性小,可采用非结构化数据库技术(如Hadoop);分析挖掘类数据,如非实时性的历史数据库,需充分进行数据挖掘,关联汇总,需调整原有架构,可部署MPP架构。
大数据时代已经到来,正促进着信息技术与各行业的深度融合;针对企业级数据分析系统的局限性和短板,提出应对的解决措施和今后建设思路。基于大数据技术的企业级分析系统的建设涉及范围广、影响意义深远,并非短期可以实现。结合企业IT现状,合理规划、逐步演进。建企业级大数据分析系统,利用和深挖传统IT系统把握机遇,迎接挑战,释放出数据的巨大能量是发展的重中之重,也无疑是大数据时代的发展任务之一。