当今的大数据不仅仅是外行人严重的时髦名词,更是专业领域当中的一个创造时代的技术和资源。对世界各国来说,大数据带来的意义将是战略性的,这也是很多国家的政府奖大数据作为战略资源的重要原因。中培教育的大数据专家谢老师认为,当前的大数据存在四大特征:
特征一:数据体量巨大(Volume)
有科学家计算过:目前互联网一天所产生的信息,一天大概能发出2940亿件邮件、200万个帖子,这些信息用来制作DVD的话,可以制作1.68亿张。不过随着云计算和移动互联网越来越普及,互联网所能生产的信息也快速增长中。
人们通常将10TB以上的数据量称为大数据,不过企业通常将各类数据集混合在一起,因而会有产生以PB为单位的数据量。1PB相当于2091台500G的计算机容量。如图。而有些大型企业的数据量可能接近或者超过EB量。
现在介绍下最小的数据单位,即字节,B。8个二进制位就是一个字节。数据单位常见有B,KB,MB,GB,TB,PB,EB,ZB,YB,BB等,我们最为熟悉的可能是GB、M和KB,尤其是手机移动流量多少,通常会用这两个单位来表示。按照这些排列的顺序,两个不同的单位,后者都是前者的1024倍,从我们目前常用的GB和绝大多数人所知道的最大内存大为TB来看,我们就可以看到当今的大数据的体量达到了何种程度。
特征二:数据类型繁多(Variety)
随着大数据的不断发展,大数据的种类和格式越来越丰富,而且越来越难以处理。以往,大多数据可以以文本的方式存储起来,这类数据被称为是结构化数据。而如今非结构化的数据逐渐增多,如视频、音频、电子邮件、地理位置信息、图片等。
特征三:价值密度低(Value)
密度定律告诉我们,当物体质量一定时,其体积越大则密度越小。而在大数据中,大数据所创造的价值密度与数据总量是成反比的,当然,物体密度是一定的,不随着物体质量、物体体积变化而变化。
以监视视频为例,在长达两小时的视频内容中,有价值的数据可能只存在三四秒的时间。而大数据运用就是将这些有价值的信息挖掘出来,进行“提纯”。
价值密度低导致数据分析专家的工作量大为增加,他们不得不收集可能多的数据,以免错过有用信息。价值密度低,不代表大数据本身的价值低,事实上,大数据具有非常高的价值,且对各领域产生深远而持久的影响。
特征四:处理速度快(Velocity)
如果没有较快的处理速度,人们便无法发挥大数据的作用,这就像一个人面对着几十桌美味佳肴,但他再怎么吃,也吃不完。而根据研究发现,目前全球数据量增长速度远远超过计算机处理速度的增长,更是远远超过人大脑信息的处理能力的增长。
在正常的传输渠道下,如果要存储并分析1PB的数据,网速设为1G/s,计算机即使24日夜不停地运行,要将数据存入电脑中也得需要十多天,由此可知,速度的重要性。企业每天都产生巨额数据,如果在24小时里无法存储完毕,将不可避免地导致一些信息被浪费掉。
具专业机构的分析报告指出,预测到2020年,全球数据量将达到让人震惊的体量,如果没有相应的速度来应对,那简直就是一场灾难。如果处理不好自己的大数据,企业也将无法从大数据中获得任何好处。
云计算的诞生为大数据处理的速度插上了腾飞的翅膀,现在一个2G的电影可能不到一秒钟就传输完毕,即使是1PB的数据量,20分钟内也可以传输完毕。
大数据呈现的这四大特征,能够帮组我们更好地了解大数据,最终运用大数据,这些特征也是人们检验一个数据集合是否为大数据的重要手段。