Spark
简介
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
生态

特点
速度快
Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算
适用场景广泛
大数据分析统计
实时数据处理
图计算
机器学习
易用性
编写简单,支持80种以上高级算子
容错性高
Spark引进了弹性分布式数据集RDD
RDD可重新构建
适用场景
复杂的批量处理
偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时
基于历史数据的交互式查询
通常的时间在数十秒到数十分钟之间
基于实时数据流的数据处理
通常在数百毫秒到数秒之间
架构
基础运行架构

结合yarn

参考
最后更新于
这有帮助吗?