资讯中心

看硅谷四大不同类型公司如何玩转大数据

来源:大数据 原标题:曝光:硅谷巨头们如何玩赚大数据
2016/4/25 14:07:53
32491
导读:难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?是,但也不是。
  【中国智能制造网 智造快讯】难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?是,但也不是。
  
看硅谷四大不同类型公司如何玩转大数据
  归纳下硅谷“大数据公司”的类型大概如下:
  
  1.数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如VantageSports和收集了PB级数据的包子铺。
  
  2.大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到500人的startup是的Hadoop架构咨询公司。
  
  3.做大数据工具的:比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。
  
  4.整合应用型:特点是收集拥有或购买一些数据,然后结合AI来解决更多实际的痛点。
  
  可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
  
  我相信未来是AI的,而AI的食物是数据。大数据行业有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用AI进行分析的能力会变得更为关键。
  
  再看硅谷主打AI的公司,现在大致可以分成以下三类了:
  
  1.分析用户行为,改进产品和营销的,比如LinkedIn的推荐系统和用iBeacon实现店内营销;
  
  2.统筹大量分散个体,利用大数据实现有效的预测和规划的,比如Uber和前段时间出现的AmazonFresh及GrubMarket;
  
  3.分析识别各种类型的数据,开发更智能的设备和程序,比如Google大脑及无人车和以Nest为代表的智能设备等。
  
  这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是有希望改变世界的。
  
  目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被Nest收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
  
  展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
  
  硅谷公司的大数据运行现状
  
  目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除Facebook等几个很的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
  
  对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。普遍来说,各公司自主建立数据处理平台存在着几个难点:
  
  1.没有足够的数据工程师来组建团队
  
  2.没有足够能力整合数据
  
  3.没有易于操作的基础软硬件来支持数据分析
  
  这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
  
  另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
  
  即使存在很多投机贴标签的人,即使一片片的大数据startups被拍死在沙滩上,即使Gartner预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的pitch那样,它能够保证的是一定可以中看并且中用。
  
  硅谷巨头们的大数据玩法
  
  将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了FLAG中的三家(Apple在大数据这块来说表现并不突出)。
  
  Evernote:今年新建AI部门剑指深度学习
  
  Evernote的大会上,CEOPhilLibin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmen ted Intelligence团队(以下简称AIteam)。
  
  是什么
  
  Zeesha是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AIteam的雏形。我们开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
  
  传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
  
  这个区别也是EvernoteAIteam的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
  
  从哪来
  
  Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
  
  到哪去
  
  不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AIteam并没有做跨用户的数据分析。
  
  这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
  
  Facebook:大数据主要用于外部广告投放和内部交流
  
  Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
  
  Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的keyfoundation定位成广告的投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。
  
  目前公司超过30%的团队,包括工程师、ProductManagers、BusinessAnalysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
  
  小扎克在2013年季度战略时提到的重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
  
  ·发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商投放的功能。
  
  ·除与Datalogix,Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
  
  ·通过收购AtlasAdvertisingSuite,加强广告商判断数字媒体广告率(ROI)。
  
 
 LinkedIn:大数据如何直接支持销售和变现赚钱
  
  LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其核心团队商业分析团队的总监SimonZhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
  
  但这个问题很重要,因为关系到直接收入。四年半前LinkedIn内所有用户的简历里抽取出来大概有300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?
  
  销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
  
  Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn服务的人,在决定的那个环节上,其实是一线的产品经理,和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
  
  今天LinkedIn的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
  
  1.分析每个公司它有多少员工。
  
  2.分析这个公司它招了多少人。
  
  3.分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。
  
  4.然后去分析,他们内部有多少HR员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。
  
  这是LinkedIn大数据部门早做的事情。
  
  Simon讲,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线。LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7月底上线。这是卖给企业级用户的。LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在快的速度里知道谁会想买你的东西。”
  
  Google:一个闭环的大数据生态圈
  
  2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。
  
  BigQuery和GAE(GoogleAppEngine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。再来看Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
  
  单独说一下Googlemaps,这个在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前大的了,但这也于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,近被多用户采用的路径会被先推荐给用户。
  
  Google还把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
  
  大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
  
  除Facebook等几个很的公司外,大部分公司要么还没有自行处理数据的能力。后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
  
  Pinterest:
  
  Pinterest曾尝试自行通过AmazonEMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上,Pinterest有能力处理其0.7亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、adhocquery等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司,也有足够的工程师来建立数据处理团队,他们依然选择了Qubole这样的专业团队来完成数据处理服务。
  
  Nike:
  
  不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作,一方面,他们通过Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发NikeFuelBand相关的移动产品。更是在2014年开启了Nike+FuelLab项目,开放了相关API,使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品,成功地连接了Nike传统的零售业务,新的科技开发,和大数据价值。

热门评论

上一篇:大数据驱动智慧城市3.0已成未来城市建设核心

下一篇:QCon北京:构建大数据生态必备核心技术

相关新闻

<