大数据是一个复杂的体系,大数据大部分来源于各类信息的转换。中培大数据分析与可视化专家蒋老师认为,在这一转换过程中,如何确保数据的真实,将决定这些数据的价值,进而决定着企业能否用这些数据创造出最大的价值。
我们知道,数据的源头是信息,因此,要确保数据的真实,首先要确保信息的真实。在当今信息大爆炸的时代,面对各种各样信息的狂轰滥炸,如何去有针对性的接收那些真实有用的信息,然后将这些信息转化成为数据,从而得到真实的数据,这样的数据才能为企业的发展带来帮助。
很多人常常的影响就是大数据是真实而客观,但现实的结果是,因为在收集整理以及分析过程中的疏失和错误,企业获得的大数据数据往往也会是不真实和错误的。
企业为什么常常会有不真实的大数据,原因就在于大数据是由信息经过转换而来,企业通过对心滚信息进行收集整理,然后通过转换,形成数据,一旦企业在手机信息的过程中采用了虚假的信息,就会导致数据的不真实。
此外,企业对大数据的使用虽然应该是全面的,但这里的大数据一般指的是核心数据。也就是通过对所有的核心数据进行全面的营销和企业的发展有用的相关信息。如果收集到的是细枝末叶,无关紧要的信息,那么这些信息即使是真实的,也会导致核心数据被稀释和掩盖,因此,在信息收集的过程中,一定要有侧重,将对企业最有影响和相关性的信息收集起来,只有这样,转换而来的数据才会是核心数据,这样的数据才能读企业额发展真正带来帮助。否则,企业的决策者们就会在大量无用的数据中不知所措,陷入迷失。
因此,要想获得真实的数据,就必须要在信息的收集、整理和分析的整个环节确保质量。在信息的手机上,一定要追求第一手资料,尽量避免通过七拼八凑,从别人那里直接拿来作为自己的数据,这样的结果是,所收集到的数据因为无法体现企业和产品的特殊性而失灵,从而实质上造成数据的失真。
在国内众多的应用书企业中,农夫山泉可以算得上是一个极富特质的品牌,农夫山泉之所以会发展成为国内最具知名度的品牌之一,企业对大数据收集的真实性严苛要求是重要的原因。
在上海程翔结合部的一处小超市的角落,摆放着很多农夫山泉,正是这样一个看似很小的超市,每天却有农夫山泉工作人员前来光顾,他们都是一手信息的采集员,这些信息包括水的摆放位置、状态和高度,这些信息通过十张照片记录下来,这样的超市,每个工作人员每天需要跑15个,然后在下班之前将反映片区产品信息的150找照片传回位于杭州的企业总部,每个业务员传回的信息的总量为10M,这10M的数据最终成为该企业大数据中的一小部分。
对大数据的收集拉说,这10M的量实在太小了,但在整个农夫山泉,却有超过一万名业务员在进行着这样的数据采集工作,其每天的数据采集量超过100G,经过长时间的累积,就能形成规模可观的大数据,更重要的是,这些数据不仅可观,而且还十分客观,因为它都是来自于第一手资料。
胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。
2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的“0、1、1、0”。
SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶段,“首先就是要将数据清晰透明化,让大数据能够明确的曾现在人们眼前,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。”
关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。
基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。
在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。”
这种没头苍蝇的状况让农夫山泉的管理层头疼不已。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。
“日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAP BW或Oracle DM,再通过Business Object展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确,或者对已出现的问题作出纠正,仍旧无法预测未来。
对所有希望拥抱大数据的企业来说,要想用好大数据,让大数据为企业带来实实在在的利益,首先就需要在数据的收集阶段,保持清醒的头脑,不要因为盲目崇拜而在大数据面前陷入迷失,将一些虚假、错误的信息一股脑儿收集起来,让数据收集陷入假大空的怪圈。只有懂得分辨和筛选,在数据收集的各个环节做到严格把关,去伪存真,精益求精,只有这样,才能获得真实而优质的大数据,造福于企业的发展。