大数据

Hadoop与Spark相互关系及未来展望

2017-01-19 10:39:32　|　来源：中培企业IT培训网

对于大数据来说，hadoopspark无疑是两大组成架构。中培伟业“大数据”专家钟老师指出，hadoopspark作为大数据的两大架构系统，二者有着竞争与承前启后的关系。对于二者之间的区别以及后期的发展趋势，钟老师给出了自己的看法。

首先，spark对于海量数据计算，尤其是迭代运算，图计算运算速度相比与hadoop有着量级上的增长。spark计算的时候将原始数据及中间结果都存储在内存中，而hadoop每轮迭代都要讲原始数据读入，中间结果写出到硬盘上。这样一来由于spark省去了IO的时间，所以相比于hadoop，其运算速率有这量级上的增长。
　　其次，spark的容错性很好，spark将海量数据抽象成RDD这种数据结构，并且其存在两种算子，一种叫transformation,主要是用于对RDD进行数据转换，一种叫action，是要将转换好的RDD再转换成原始数据。

spark运算是一种懒惰运算，其程序执行逻辑是，对于一系列transformation算子，在遇到action算子之前，这些transformation是不会执行的，而会生成一个运算逻辑图，当遇到一个action算子的时候，才根据前面的运算逻辑图执行程序。这样如果有台机器宕机了之后，只需要根据逻辑图将宕机中的RDD进行重新计算就可以了（窄依赖的情况下，宽依赖的情况下计算代价要更高。）
　　同时，sparkHDFSYarn/Mesos以及pregel有着很好的兼容性。但是毕竟spark起步晚，在性能、稳定性方面还有待提高；同时spark不能很好的处理细粒度、异步的数据。

Hadoop，性质和Spark并不一样，它不仅仅是一个框架，而致力于发展成一个分布式计算的平台。所以，现在的Spark是可以运行在YARNYet another Resource Negotiator）上的，而其他的一些框架也可以运行在这个平台上，达到资源共享的目的。
　　spark相对hadoop编程模型简单，能进行迭代操作，利用内存（甚至是堆外内存）缓存数据，能进行流水线优化，上层封装了sqlstreamingmlibgraphx等或成熟或不成熟的框架，明显有取hadoop而代之的倾向。

1. 相同的算法，SparkHadoop快数倍，如果是一些迭代或者要对数据反复读取的算法，SparkHadoop快数十倍至上百倍
　　 2. Spark对于数据的操作种类更多，对于一些比较特殊的计算需求，比如求两个集合的交集并集，Spark都有函数直接计算，而Hadoop实现这样的计算无比繁琐
　　 3. Spark的开发效率比Hadoop高很多
最后，钟老师对二者的发展趋势进行了展望，他认为虽然Spark目前还不够成熟，但其无疑代表着未来。

标签：大数据

上一篇：【中培课堂】详解系统架构运行应该注重的问题
下一篇：论IT服务管理价值捕获应坚持的5个原则

大数据

Hadoop与Spark相互关系及未来展望

猜你喜欢

热门课程

预约领优惠