实现R语言与Hadoop联合作业的三种方法
- 来源:数据分析网 原标题:实现R与Hadoop联合作业的三种方法
- 2016/6/12 14:34:18
- 31890
方法一:利用StreamingAPIs
Hadoop支持一些StreamingAPI来将R语言中的函数传入,并在MapReduce模式下运行这些函数。这些StreamingAPI可以将任意能在map-reduce模式下访问和操作标准I/O接口的R脚本传入Hadoop中。因此,你不需要额外开启一些客户端之类的东西。如下是一个例子:
StreamingAPIs
方法二:使用Rhipe包
Rhipe包允许用户在R中使用MapReduce。在使用这一方法前,要做相应的前期准备工作。R需要被安装在Hadoop集群中的每一个数据节点上,此外每个节点还要安装ProtocolBuffers(更多资料请参考http://wiki.apache.org/hadoop/ProtocolBuffers),Rhipe也需要在每个节点上都可以被使用。
下面是在R中利用Rhipe应用MapReduce框架的范例:
Rhipe包
方法三:使用RHadoop
RHadoop是Recolution Analytics下的一个开源库,与Rhipe类似,它的功能也是在Map Reduce模式下执行R函数。后续列举的都是该库中的一些包。plyrmr包可以在Hadoop中对大数据集进行一些常用的数据整理操作。rmr包提供了一些让R和Hadoop联合作业的函数。rdfs包提供了一些函数来连接R和分布式文件系统(HDFS)。rhbase包中的函数则能连接R和HBase。
下面这个例子中,我们会演示如何使用rmr包中的一些函数来让R与Hadoop联合作业。
RHadoop
方法总结
总的说来,上述三种方法都能很容易地实现R与Hadoop的联合作业,这样一来R就拥有了在分布式文件系统(HDFS)上处理大数据的能力。但同时,这三种方法也各有利弊。
关键结论:
1、使用StreamingAPIs为简单,它的安装和设置都很方便。Rhipe和RHadoop都需要对R进行一些设置,并且也需要Hadoop集群上一些包的支持。但在执行函数方面,StreamingAPIs需要将函数依次map和reduce,而Rhipe和RHadoop允许在R函数中定义并调用MapReduce函数。
2、与Rhipe和RHadoop不同,使用StreamingsAPIs也不需要客户端。
3、除此之外,我们也可以使用ApacheMahout,ApacheHive,Segue框架与其他来自RevolutionAnalytics的商业版R来实现大规模机器学习。
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论