如果提到“大数据”,你会想到什么?也许大部分人会联想到有多少人使用运动APP进行锻炼?女生喜欢什么样的口红?中国网民有多少人?……
可以说,过去数据被认为是冰冷的数字,只要求提供一些事实数据,而如今大数据的深度和广度远不止这些,大数据已经在人类社会实践中发挥着巨大的优势,其利用价值也超出我们的想象。
但大数据的本质还是数据,只不过在处理量、速度要求、处理效率等方面,传统工具无法满足,那么就需要用大数据的一系列工具来解决。
华永道移动数据和分析计划首席技术官Ritesh Ramesh说:“数据学习工具是客户进行数据质量和性能分析的工具包中的重要工具,可处理5000万行数据,以发现洞察力”。现如今顶级的大数据工具包括:Cloudera、MongoDB、OpenRefine、DataCleaner、RapidMiner、Tableau等。
通过这些工具,使得大数据更能广泛地应用于各个场景,比如说:了解和优化业务流程、微博等社交网络的数据分析运用、电子商务中的数据分析推荐、搜索引擎中的数据分析处理等等。大数据应用为何如此广泛?我们再看看以下4个技术特征就知道原因了!
大数据的技术特征我们可以用4个“V”来表示。
首先第一个“V”(Volume)是指数据体量巨大,从TB级到PB级。对于传统企业来讲,不一定能达到PB级别。但面向终端用户的一般互联网行业公司是可能达到PB级别的,倘若数据体量达到十几TB甚至几十TB时,还是需要大数据技术进行处理。
第二个“V”(Velocity)是指速度,这里指数据的产生速度快,处理速度快。在实时计算、流计算的场景下,我们要求大数据本身对于数据的处理速度要快,因为从传感器,或者是用户在前端的一些点击行为,这些操作都会在短时间内产生大量数据。因此就要求大数据系统、大数据工具对数据的处理速度要能跟上其产生的速度。
第三个“V”(Variety)是指数据类型,数据类型在大数据的场景下是繁多的,所处理的数据一般都是半结构化,甚至是非结构化的。比如日志、视频、图片、地理位置信息等,就要求大数据的一些处理系统、处理技术能够对半结构化数据和非结构化数据进行相应的处理。
第四个“V”(Value)是指价值,高价值总量,低价值密度。也就是说,在大数据的场景下,若能对大数据进行全量分析,那么其价值总量是巨大的。当然大数据本身是要求对数据做全量分析,因此如果只是对其中一部分数据做分析的话,那么其价值密度相对来讲是较低的。
针对大数据以上四个特征,我们对大数据的思维有所了解后,对于是否适合建造项目也就有了明确的判断。
那么,有人会问:建设大数据项目的必备条件是什么呢?请听下回分解。
——未完待续——