熊辉:数据时代 大数据如何转化为商业利益?
- 发布时间:2016-06-17
- 浏览次数:34092
中:美国罗格斯商学院教授熊辉
一.大数据分析究竟是什么?
今天主要是跟大家分享,我们在过去几年中研究工作的总结。
今年我们一共在KDD发布了9篇论文,题目非常的多样化,内容涵盖也非常广泛,包括房地产、通讯、市场营销、人力资源,还有一些好玩的方向,比如我们做了用大数据抓小偷,还有医药相关的,例如如何去做医疗流程的优化和诊断。
今天跟大家分享的也是一个非常好玩的方向。
我喜欢用下面这张slide介绍什么叫做“数据挖掘”,它能够很好的帮助大家,尤其是没有计算机基础的人来理解数据挖掘是做什么的:
数据挖掘其实很像是医生在诊断病人,当病人到达医院之后,医生先要收集病人的病症,将各项病症进行分析并产生关联,然后才能进行诊断。
所有的数据都不一样,例如做通讯的数据,从移动、联通、电信来的数据都不一样,因为大家的客户群不同,背后的数据特点不同。
病人也是一样,同样的病症,例如感冒,如果病人是老人、怀孕的妇女、小孩,他们呈现出来的病状都是不一样的。
数据分析就像是根据这些完全不一样的病症,收集并进行分析,然后进行诊断的过程。
二.为什么说大数据分析很难?
数据挖掘是一个很老的topic,早提出这个观点的是沃尔玛。当时叫“海量数据”,也就是“verylargedata”。
我经常用瞎子摸象来比喻数据分析。大象就对应海量数据,每一个数据分析师就是这个瞎子,我们只能够摸一部分大象的部位,就像数据分析师只能够拿到部分数据,但我们通过部分的数据来感受整体。
现在的bigdata和以前相比有什么区别呢?——现在的象不仅大,还有翅膀,还会飞。我们的很多应用需求造成我们的数据在不断的移动变化:
例如出租车的GPS数据,是一直在移动和变化中的。又例如金融行业,金融行业的高频数据交易每秒钟都会有上万个交易。在这种每天会产生上百万个交易的前提下,我们运用的交易策略产生和风险评估机制都要适应这种快速变化的海量数据时代。
这种情况会加剧我们数据分析的复杂度和难度,这是目前bigdata所带来的挑战——我们在单位时间内所需要处理的数据量远远超过我们的计算能力和算法能力。
三.重要的不是算法好,而是算法快
大象在飞的时候,决定谁能够胜出的往往是谁的算法更快,而不是更好。目前市场上面临这么激烈的竞争,大家在竞争中,拼的往往是时间,是你的算法能够多快速地解决问题。
好的算法不是比别人好多少,而是比别人快多少。
我很喜欢用下面的这个公式来解释算法的本质:
我们经常在商业中做很多预测,a是我们在长期的历史规律总结出来的规律,也是《易经》中的“不变的理”,β是短期变化规律的一种耦合。好的预测是既能够把握长期不变的理,又能把握短期的变化规律,然后抓住他们的耦合。
就像一群鱼游过来,游得很快,水很浑浊,我们的算法比的就是谁能快地观察到鱼群游过来,同时从鱼群中甄别出哪一条鱼是有价值的,观察到之后马上捕获它。整个算法比拼的是这种快速运算,快速解决问题的能力。否则,差一个毫秒,别人就把鱼吃完了。
四.大数据商业化的难点在提出问题
我作为一个计算机背景出身的人,理解计算机领域的人的想法。
从计算机学科毕业的人,往往会觉得自己掌握的是科学,会轻视问题的提炼,因为他觉得自己掌握了算法。
但往往问题的关键不在于问题的本身,而是问题的提炼。99%的问题算法都能解决,但商业中真正的难点在于提炼出问题。
比如我现在如果给你一堆移动数据,非常多非常庞杂,你能从里面发现什么商业模式?提炼出来什么问题?
这不是大多数人可以做到的。但大多数计算机学科的人可以做到的是,如果我提炼了一个问题,希望你运用数据分析帮我找到解决途径,他们是很擅长的;但如果反向操作,我给你一组数据,希望你从中提炼出一些需要解决的问题,或者说好的商业模式,这样的能力就会有所欠缺。