资讯中心

云上运行Hadoop哪些问题需注意?

来源:云栖博客 原标题:云上运行Hadoop 会面临哪些挑战
2016/6/3 13:43:16
32226
导读:在云上运行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。
  【中国智能制造网  技术前沿】在云上运行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。

云上运行Hadoop 哪些问题需注意?
  
  平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。结合云上的弹性优势,企业的总体成本是会下降的。
  
  在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。
  
  云上Hadoop的挑战-Shuffle
  
  Shuffle分为Push模式,Pull模式。Push模式就是直接通过网络发送到下一个节点,比如:storm、flink。Pull模式就是数据先存储在本地,再启动下一个节点拉取数据,比如:HadoopMR、Spark。
  
  在push模式下,主要瓶颈点是网络。在一般的云环境中,网络跟线下没有太多的区别,可以满足需求。
  
  在pull模式下,主要瓶颈点是磁盘。在云环境中,会提供本地磁盘或者用SDD加速的方案。如下:

SDD加速方案
  
  另外:
  
  根据spark社区的报告,在机器学习等很多场景下,瓶颈点现在是CPU
  
  云上Hadoop的挑战-数据本地化
  
  数据本地化含义是分析时,把计算移动到数据节点的。如果计算存储分离,则存在数据放在OSS中,需要从OSS远程拉取数据。一般情况下,认为这样会有性能问题。

从OSS远程拉取数据
 

热门评论

上一篇:PennState开发出新型3D打印技术可快速原型

下一篇:物联网上演技术之争 三大主流技术有何区别?

相关新闻

<