盘点:受欢迎的开源大数据技术
- 来源:ITeYe 原标题:盘点受欢迎的十个开源大数据技术
- 2016/8/11 11:48:50
- 32676
盘点:受欢迎的开源大数据技术
2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。
4.Apache Hive 2.1——Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。随着新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的佳解决方案。
5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。
6.Phoenix—是H Base的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBasescan,并编排执行以生成标准的JDBC结果集。
7.Zeppelin——Zeppelin是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括Scala(使用ApacheSpark)、Python(ApacheSpark)、SparkSQL、Hive、Markdown、Shell等。
8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。
9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,无需学习太多框架。
10.Stanford Core NLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论