张琪:大数据时代的数据仓储
——记百度高级产品经理张琪
- 发布时间:2016-05-17
- 浏览次数:31613
百度产品经理张琪
乔丹为耐克代言 说的是Just do IT 而不是Just do DT在科学方法提出之前,人们获得知识的渠道更多的是靠口口相传,伟大的亚里士多德曾经在他的书里写道,男人的牙齿要比女人多三颗,因为他的老师是这么教他的,但是关键的是亚里士多德结过两次婚,他只要找他的妻子张嘴数一下牙齿,就可以得以论证,可惜结过两次婚他也没有想到去验证,所以现在非常强调科学方法,有了科学方法才能验证一个理论是否科学与否,能够获得终的洞察力。
在科学方法中重要的是数据分析,要开发一套能够检测的理论,收集一批数据来验证,推翻或者提高或者改良假设,这样就能找到真的洞察力。根据维基百科来说也是简单的三步,步是收集数据,第二步是加工处理数据,第三步是分析数据找到洞察力。这个时代的IT是获得真正的洞察力。正如乔丹当时为耐克代言说的是JustdoIT,而不是JustdoDT,所以要搞清楚终要获得的是洞察力,而处理数据信息只是方法而已。
OLTP vs OLAP
OLTP vs OLAP
做个简单的对比,OLTP放的是日常事务的处理,比如说在ATM机上,存取钱,这时一个小的CRUD的操作比较多,而OLAP多的是分析,更多的是关于复杂的查询。在访问模式上,OLTP更多的是对简单小事务、操作少量数据,因为增删改大多数时候是一行的数据,而OLAP是复杂聚合查询、操作大量数据。对于数据类型,OLTP更多的是新状态的切片,而OLAP是查询到整个状态。对于数据规模来说,OLTP的规模是GB的规模,而OLAP的规模是TB、PB的规模。
应时代两大变化:大数据and云计算
用一个名人说的,格罗姆.地狱咆哮中格罗马什说的时代变了。时代变了,大数据来了。在大数据中有两点是我们看到的非常多的,数据量大和数据多样性。正如百度做的开放云,也和很多企业合作过,像传统的规整的结构化数据是少量的,而更大量的是互联网的数据,社交的数据,用户日志,行为这样的数据多样性非常多。
时代的第二个变化就是云计算,现在云计算渗入到各行各业,不管对它喜欢与否,抵抗或者是抵触还是有倾向性,云计算都是实实在在发生的,并且是个不可逆的趋势。现在很多企业还在做私有云。云计算带来很多好处,很多是关于托管服务。百度在运营开源产品,并且很多商业产品都是和开源产品接口是兼容的,但是在运维这些产品时,都会碰到各种各样的坑,或者是想雇佣一个有这种开源能力的人。所以托管服务这种形态还是有它自己的优势的,它的好处就在于比如现在要建一个Hadoop集群,在云端,一键部署,大概两分钟就可以建一个Hadoop集群,可以做一个按时发布和按时购买。
技术细节
Hadoop核心技术