了解Hadoop技术优缺点轻松处理大数据
- 来源:36大数据 原标题:使用Hadoop处理大数据,你需要了解它的优点和缺点
- 2016/6/15 10:37:53
- 32907
了解Hadoop技术优缺点 轻松处理大数据
Hadoop基本介绍
hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。什么是分布式存储?这就是后边我们要讲的hadoop核心之一HDFS(HadoopDistributedFileSystem);什么是分布式计算?这是我们后边要讲的hadoop另外一个重要的核心MapReduce。
hadoop的优点一:低成本
hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。
hadoop优点二:性
这也是hadoop的核心竞争优势所在,接受到客户的数据请求后,hadoop可以在数据所在的集群节点上并发处理。
hadoop优点三:可靠性
通过分布式存储,hadoop可以自动存储多份副本,当数据处理请求失败后,会自动重新部署计算任务。
hadoop优点四:扩展性
hadoop的分布式存储和分布式计算是在集群节点完成的,这也决定了hadoop可以扩展至更多的集群节点。
hadoop安装方式|hadoop部署方式
hadoop安装方式只有三种:本地安装;伪分布安装;集群安装。
Hadoop适应的场景
1:超大文件
可以是几百M,几百T这个级别的文件。
2:流式数据访问
Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析。
3:商业硬件
也就是说大街上到处都能买到的那种硬件,这样的硬件故障率较高,所以要有很好的容错机制。
Hadoop不适用的场景
1:低延迟数据访问
Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化,如果要求低延迟,可以看看Hbase。
2:大量的小文件
由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。这样的话别的文件数目还是可行的,再多的话就有问题了。
3:多用户写入,任意修改
Hadoop现在还不支持多人写入,任意修改的功能。也就是说每次写入都会添加在文件末尾。
Hadoop业务场景(一)
在大数据背景下,ApacheHadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。
美国着名科技博客GigaOM的专栏作家DerrickHarris跟踪云计算和Hadoop技术已有多年时间,他也在近的一篇文章中总结了10个Hadoop的应用场景,下面分享给大家:
在线旅游:目前范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版,其中SearchBI网站曾经报道过的Expedia也在其中。
移动数据:Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。
电子商务:这一场景应该是非常确定的,eBay就是大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。
能源开采:美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论