八大观点带你看清大数据的核心问题,大数据,数据变现,数据分析-智能制造网

八大观点带你看清大数据的核心问题

来源：极客头条原标题：大数据的八大观点

2016/6/15 9:55:21: 30499

导读：什么是大数据的价值?如何体现它的价值?如何衡量它的价格?它能够变现么?如何来变现却是大数据的核心问题。

　　【中国智能制造网名家论坛】越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，价值(Value)，但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。核心的问题还不在数量和种类，而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格?它能够变现么?如何来变现却是大数据的核心问题。

八大观点带你看清大数据的核心问题

　　
　　做大数据的同学，外面看起来像是红楼梦的大观园一样，外表光鲜亮丽，身在其中的人，才知道各有各的无奈。大数据的处理通常分为，数据收集，数据清洗，数据加工。数据应用，数据可视化。数据收集同学总是抱怨数据源Garbagein,Garbageout的感觉，数据清洗的同学总有沙里淘金的感觉，数据加工的同学也经常受两头气，相比来说，做数据可视化的同学比较幸运，可以找到很多炫酷的感觉，但有不是大数据的主流技术。难受的是做大数据应用/变现的同学，不得不靠着忽悠行走江湖。
　　
　　八大观点：
　　
　　大数据的信息熵值低
　　
　　大数据不是银弹是蚂蚁效应
　　
　　大数据不解释因果，更关心相关性
　　
　　数据资源公司佳是被收购，好应用是广告和泛征信
　　
　　大数据是对用户隐私的汲取
　　
　　用户数据无法用过定价来进行数据交易
　　
　　搞清楚业务，再谈大数据也不晚
　　
　　大数据的价值是真水无香
　　
　　观点一：大数据的信息熵值低
　　
　　1948年，香农提出信息熵的概念，可以用于表述信息的价值，信息熵高的言简意赅，信息熵低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log，图片，视频等。特别是日志系统数据，数据越来越多，越来越大，其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。
　　
　　观点二：大数据不是银弹，而是蚂蚁效应
　　
　　大数据应用常见，多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等，这些业务在传统的做法上，已经十分依赖于数据了，虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会渐渐提高这些应用的性，这种提高一定是渐渐的，一点一滴的。也许一天两天感觉不错来的，但是经过多年的持续改进，这种效果是显而易见的。
　　
　　举个例来说，语音识别起始于60年代，基于小型词汇库，在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟，数据也是基于大量的词汇库，语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库，效果有改进，但是还无法达到实用的程度。2009年以后，借助于互联网语料库的进一步丰富，数据料的增长，远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升，用户也不断使用语音识别反馈更多的数据。以至于，谷歌公司人工智能方面的专家彼得·诺维格(PeterNorvig)，和他的同事在一篇题为《数据的非理性效果》(TheUnreasonableEffectivenessofData)的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题，例如自动驾驶，人工智能等。
　　
　　观点三：大数据不解释因果关系，只关心相关性
　　
　　《大数据时代》中定义了大数据的第三个特征，“不是因果关系，而是相关关系”。沃尔玛通过数据挖掘，发现蛋挞和飓风产品有很多关联性，并且放在一起销售提高销售量。没有人清楚其中的因果关系，当然，也可能有人牵强的解释，美国人喜欢飓风时期躲在家里吃蛋挞，通过数据我们获得了相关性，但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击：很多时候我们在二维世界的相关性，是无法在二维世界进行解释因果的，也许只有在三维或者多维世界才能够解释因果关系，而这种因果关系无法直接理解，只能进行归纳成相关关系。

资讯中心

八大观点带你看清大数据的核心问题

热门评论

相关新闻