大数据已经越来越吸引全社会的关注,大量的人才和财富进入大数据领域,与此同时,真正了解大数据的却并不多。中培教育《大数据与可视化技术》培训专家蒋老师在这里就大数据领域的8个重要观点进行了论述。他认为这个观点对深刻理解大数据具有重要帮助作用。
观点一 :大数据的信息熵值低
信息熵这一概念是由香农在1948年提出来的,可以用于表述信息的价值,信息熵高的言简意赅,信息熵低的冗余拖沓。目前,很多大数据的来源都是一些系统的Log,图片,视频等。特别是日志系统数据,数据越来越多,越来越大,其中大部分是固定模板的数据,区分度差,信息量并没有随着数据的增加而线性增加。
观点二:大数据不是银弹,而是蚂蚁效应
大数据应用常见,多见于推荐系统,业务流程优化,医疗,性能优化,预测,金融交易等,这些业务在传统的做法上,已经十分依赖于数据了,虽然以前不叫大数据,但是也都是数据驱动的业务。数据的规模和种类增多,处理方法的增多,会渐渐提高这些应用的精准性,这种提高一定是渐渐的,一点一滴的。也许一天两天感觉不错来的,但是经过多年的持续改进,这种效果是显而易见的。
观点三:大数据不解释因果关系,只关心相关性
有理论给大数据的一个特征进行了定义,即它“不是因果关系,而是相关关系”。沃尔玛通过数据挖掘,发现蛋挞和飓风产品有很多关联性,并且放在一起销售提高销售量。没有人清楚其中的因果关系,当然,也可能有人牵强的解释,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们获得了相关性,但是却不理解其中因果关系。
观点四: 大数据资源公司最佳变现是被收购,最直接变现渠道是广告和泛征信
很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司,因为他们对于变现的能力和可持续性都有很多顾虑,他们也面临高风险的用户隐私挑战,因此很多大数据资源公司的PR工作,远远多于具体落地的数据服务工作。因此,各个专业大数据公司都忙于各种行业洞察报告和排行榜,数据可视化的工作一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,很多公司会提到“数据服务”,实际上数据服务的市场相对稳定,并没有因为大数据公司的发展而市场膨胀,因此“数据服务”实际上是一个明显的“僧多粥少”的状态。
另外,大数据的价值呈现存在于征信系统,金融的本质是一个套信用系统,这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存,主要依据就是风险控制,大数据是重要技术支持,因此很多P2P会采购大量数据资源,加强自己的征信系统。
观点五:大数据是对用户隐私的汲取
大数据正在结合智能设备的普及而大力推进,例如摄像头,手机,智能穿戴设别等。 其中,大量用户隐私数据被收集,例如用户地址,交易数据,搜索数据,用户的地理位置信息,用户的脉搏,联系人列表等等。这些都是用户的个人数据,各大数据公司都通过改善服务为借口,获得用户的授权,而进行隐私的汲取和偷窥。
也有一种声音,这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先,服务商提供更好的服务,并不代表可以收集用户的隐私数据;其次,很多公司不提供不收集用户隐私数据的服务的选项,这让很多用户无法选择禁止用户隐私数据收集,这是一种利用市场地位的垄断和霸王条款而后,所有数据公司没有提供数据清理功能,删除用户所有的历史数据。这意味着,你的隐私数据一旦被收集,可以被无限次的无范围的滥用。
观点六: 用户数据是无法通过定价而进行交换的
大数据采集公司,都有数据变现需求。对于数据采集公司来说,虽然能做一些数据分析和预测,但这些分析服务的费用较少(在成为顶级咨询公司之前,很难持续公司的正常运作,只能继续烧钱或者被收购。对于数据采集公司来说,很多人认为数据可以在公开公正公平的数据市场中变现,不少市面上的DMP都提供了一些数据交易平台,希望数据项商品一些安全,公平的交易。
在各种大数据的应用中,用户的个人数据在很多场景中是最有价值的,这些数据一旦流入到市场或者黑市,社会后果将不堪设想,而且数据泄露者还面临法律风险,因此数据交易无法在公开的数据交易市场进行。一些脱敏技术可以让数据难以反追查,但是脱敏技术的尺度把握却是在人的手上,它很容易引入各种法律风险。
观点七:大数据的价值是真水无香
在大数据这一名词在社会上铺天盖地呈现的情况下,让人觉得不懂大数据是一种羞耻。最近面试过好些候选人,做没做过数据都说想做大数据,而且是非大数据/机器学习不做,问他为什么要做大数据,所有回答都是这是趋势,不转型,宁等死,大数据可以挖掘出很多价值,帮助业务增长,这种感觉很好。
反过头来,看看工作中搞大数据技术的同学,每天通过脚本处理成千上万的数据,每天苦逼的处理各个数据格式,数据清洗,数据加工,数据分类/聚类,好不容易生成一些数据洞察结果,也需要用一大堆脚本和数据进行二次验证,包括精准率召回率。
确实,在一种新的数据洞察或大数据应用出来的时候,确实对于产品的提升很有帮助,为了保持保护这种提升,需要不断的对于数据进行清理,提高及时性,这种数据的维护工作慢慢会变成大数据工作者的很大一部分工作。
观点八:搞清楚业务之后,再谈大数据也不晚
大数据作为当前的一个热门词汇,目前很多行业峰会都沾上“大数据”的光环了,以前的站长大会也变成”自媒体大数据峰会”了,以前的互联网运营大会也变成”大数据运营峰会”了,以前的软件研发大会也加入了一个“大数据”分会场了。这是一个大数据唾沫横飞的世界,一不小心你就参与其中了。