云上运行Hadoop哪些问题需注意?
- 来源:云栖博客 原标题:云上运行Hadoop 会面临哪些挑战
- 2016/6/3 13:43:16
- 32226
云上运行Hadoop 哪些问题需注意?
平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。结合云上的弹性优势,企业的总体成本是会下降的。
在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。
云上Hadoop的挑战-Shuffle
Shuffle分为Push模式,Pull模式。Push模式就是直接通过网络发送到下一个节点,比如:storm、flink。Pull模式就是数据先存储在本地,再启动下一个节点拉取数据,比如:HadoopMR、Spark。
在push模式下,主要瓶颈点是网络。在一般的云环境中,网络跟线下没有太多的区别,可以满足需求。
在pull模式下,主要瓶颈点是磁盘。在云环境中,会提供本地磁盘或者用SDD加速的方案。如下:
SDD加速方案
另外:
根据spark社区的报告,在机器学习等很多场景下,瓶颈点现在是CPU了
云上Hadoop的挑战-数据本地化
数据本地化含义是分析时,把计算移动到数据节点的。如果计算存储分离,则存在数据放在OSS中,需要从OSS远程拉取数据。一般情况下,认为这样会有性能问题。
从OSS远程拉取数据
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论