spark流处理目的
spark流处理目的?
1.轻量级快速处理 Spark通过减少磁盘IO来达到性能的提升,它们将中间处理数据全部放到了内存中。 Spark使用了RDD(Resilient Distributed Datasets)数据抽象,这允许它可以在内存中存储数据,只在需要时才持久化到磁盘。 这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了运行时间。
2.易于使用 Spark支持多语言(Java、Scala、Python及R) 自带80多个高等级操作符 允许在shell中进行交互式查询 它多种使用模式的特点让应用更灵活。
Spark 流处理:是对Spark核心API的扩展,目的在于对实时数据流进行高吞吐、高容错的处理。