资讯中心

建立统一数据平台是开展大数据服务的关键

来源:数据分析网 原标题:前优酷土豆大数据平台研发负责人杨大海:建立统一数据平台的重要性
2016/6/15 10:22:52
32676
导读:在WOT2016互联网运维与峰会上,来自前优酷土豆的大数据开放平台研发负责人杨大海做了以“建立统一数据平台的重要性”为主题的演讲。
  【中国智能制造网 名家论坛】在WOT2016互联网运维与峰会上,来自前优酷土豆的大数据开放平台研发负责人杨大海做了以“建立统一数据平台的重要性”为主题的演讲。本文章是把本次分享干货亮点整理成文字形式,呈献广大的用户。

建立统一数据平台 是开展大数据服务的关键
  
  杨大海表示,对于一个外行人或刚入门的人来说,建立一个数据平台就是搭一个Hadoop集群而已。但基于这个集群,想要把它很好的用起来会暴露很多的问题。那么针对这些问题就需要研发很多系统来应对,所以建立统一数据平台是非常重要的。
  
  为什么说建立统一数据平台是重要的
  
  门槛,这里杨大海表示,并不是现在做大数据的门槛有多高,因为整个大数据领域的技术非常成熟,人员也很多,很多公司都自己的团队做大数据。这里所说的门槛是指非大数据领域的一些人,如分析师可能只会写一些SQL语句或只能看懂一些数据,出一些报表,如果让这类人写Mapreduce或数据收集研发东西,就会觉得非常难,如果建立一个完善的数据平台,可有效帮助他们。
  
  共享,假设某公司有很多技术团队、不同部门、不同业务团队。如每个团队都搭一套Hadoop群,中间的数据共享就成了问题。还就是资源浪费,像人力资源浪费和服务器资源浪费等。
  
  规范,基于大数据系统做一个数据产品,需要数据采集、收集、存储和计算等多个步骤,这样整个流程是非常长,花30%时间做业务系统开发,70%时间用于平台搭建或一些开源的完善,是非常不划算的。设想做数据产品之前就已经有系统供选择,有数据需要采集,有新计算模型需要诞生时候只需要接入,不需要再花时间调研。制定规范之后,日志放在哪,通过标准配置,就可以把日志采上来供使用。这样一来,就保证尽可能缩短数据采集整个的流程。
  
  成本,这里指人力成本和服务器,就是硬件资源的成本。有统一数据平台,就可以做很多优化。面对一千台规模的服务器,可通过一些修改原码、参数优化等提升10%,就可节省约64G或者128G、4核服务器一百台。
  
  时间,开发一套业务系统,大可不必花一个月的时间调研Hadoop,花一个月时间的调研Kafka,因为这些不在业务团队的竞争范围之内。更多的精力应放在产品或系统,如何把系统做得更,而不是怎么把Hadoop打好。
  
  Hadoop集群的发展进程

 Hadoop发展规模

  如上图,杨大海表示,从2012年到2016年,Hadoop集群在不断进化发展中。集群初起点比较低,只是为了满足数据分析团队和推荐团队使用,只有三四十台的规模。在2012年到2013年的时间,集群扩张的非常快。到2013年接入很多用户,公司其他团队如广告、分成等团队接进。集群膨胀厉害,半年时间翻了四五倍,到200台左右的规模。到2016年时间,整个集群将近一千台规模,中间做了一次升级,就是1.3升级2.3,当时升级是为了满足周边的一些生态圈。
  
  Hadoop集群发展过程中遇到的问题

  hadoop问题演变
   
  如上图,杨大海表示,整个集群发展过程中遇到的问题是随着阶段的推移不断地变化的,也就是说不同阶段遇到的不同的问题各不一样。
  
  50台规模时,整个生态圈不完善,像Hive等本身还有很多Bug,但因为刚开始,应用简单所以并没有发现。此时团队技术功底非常差,集群管理基本上没做,直接搭了一条集群,裸奔的集群。
  
  200百台规模时,遇到的问题相对多一些,杨大海在这里介绍了权限问题、用户管理、资源调度、调度系统、数据安全、目录规范、参数规范、本地化八大问题。
  
  ·权限问题,用户增多,十个上百个,那权限就成了问题。
  
  ·用户管理,如何把用户管理好,保证用户的作业及时提交,而不是因为某个用户提交一个大作业,把整个集群资源占完,其他的脚本没法跑。如何保证这个用户存储不会无限扩张。如何给用户规划存储。
  
  ·资源调度,保证用户一定独立空间,控制占有的资源数目,不至于把整个集群的资源给占完。
  
  ·调度系统,一台服务器,一台客户端,可能会给三个团队用,每天晚上会有上万个,甚至几千个、几百个作业来提交,通过这台机器来提交。调度系统是为了解决客户端单节点的问题,单点故障的问题。
  
  ·数据安全,公司内部虽是同一个集团公司,但分为不同的BU,这些BU之间的数据是需要共享、也需隔离。
  
  ·目录规范,日志如何存储,用户目录如何规划,目录需要多大的空间,如果超过空间我如何提醒删除。
  
  ·参数规范,Hadoop有很多参数,需要增加,也需要优化。
  
  ·本地化,有时需对Mapreduce本地化,因为突然间上了两百台机器,Mapreduce从中取数据,但本地没有需远程,这还需要对本地化参数做优化。
  
  1000台左右高可用多计算模型共存时,问题就更多,更加繁琐。如用户水平、高可用、小文件、数据迁移、任务问题、存储计划、机房瓶颈、归档、资源争强分类、资源隔离、任务监控、列队监控等。
  
  ·用户水平,用户水平有低有高,这就需要有一个人专门解答每天用户的问题。
 

热门评论

上一篇:中国世界五将超美国 “中国制造”优势在哪?

下一篇:发展先进制造业要处理好政府与市场的关系

相关新闻

<