加入收藏 | 设为首页 | 会员中心 | 我要投稿 银川站长网 (https://www.0951zz.com/)- 云通信、基础存储、云上网络、机器学习、视觉智能!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

简单总结Hadoop和Spark集群技术的不一样

发布时间:2023-04-06 09:47:39 所属栏目:经验 来源:
导读:在大数据问题上,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。同时,Hadoop还会索引和跟踪

在大数据问题上,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

Hadoop除了提供为大家所共知的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。

我们要读图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们交流的人越多,我们数书就更快。

而在Spark中,也有Job的概念,但是这里的Job和Mapreduce中的Job不一样,它不是作业的最高级别的粒度,在它只上还有Application的概念。所以我们可以理解为,job是一个粒度更高的粒度,而mapreduce是一个粒度更低的粒度。

(编辑:银川站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!