RDD行动操作算子 --- foreach（遍历）、collect-APISpace

RDD行动操作算子 --- foreach（遍历）、collect

foreach操作是直接调迭代rdd中每一条数据

class foreachTest { val conf = new SparkConf().setMaster("local[6]").setAppName("sortBy") val sc = new SparkContext(conf) @Test def foreachTest: Unit ={ val rdd = sc.parallelize(Seq(1,2,3,4,5,6)) rdd.foreach( item => println(item) ) }}

collect 在驱动程序中，以数组的形式返回数据集的所有元素

@Test def collectTest: Unit ={ sc.parallelize(Seq(("a",1),("b",2),("c",3))) .mapValues(item => item*10) .collect() .foreach(println(_)) }(a,10)(b,20)(c,30)

1.collect的作用 Spark内有collect方法，是Action操作里边的一个算子，这个方法可以将RDD类型的数据转化为数组，同时会从远程集群是拉取数据到driver端。 2.已知的弊端首先，collect是Action里边的，根据RDD的惰性机制，真正的计算发生在RDD的Action操作。那么，一次collect就会导致一次Shuffle，而一次Shuffle调度一次stage，然而一次stage 包含很多个已分解的任务碎片Task。这么一来，会导致程序运行时间大大增加，属于比较耗时的操作，即使是在local模式下也同样耗时。其次，从环境上来讲，本机local模式下运行并无太大区别，可若放在分布式环境下运行，一次collect操作会将分布式各个节点上的数据汇聚到一个driver节点上，而这么一来，后续所执行的运算和操作就会脱离这个分布式环境而相当于单机环境下运行，这也与 Spark的分布式理念不合。最后，将大量数据汇集到一个driver节点上，并且像这样val arr = data.collect()，将数据用数组存放，占用了jvm堆内存，可想而知，是有多么轻松就会内存溢出。3.如何规避若需要遍历RDD中元素，大可不必使用collect，可以使用foreach语句；若需要打印RDD中元素，可用take语句，返回数据集前n个元素，data.take(1000).foreach(println)，这点官方文档里有说明；若需要查看其中内容，可用saveAsTextFile方法。总之，单机环境下使用collect问题并不大，但分布式环境下尽量规避，如有其他需要，手动编写代码实现相应功能就好。4.补充： collectPartitions：同样属于Action的一种操作，同样也会将数据汇集到Driver节点上，与 collect区别并不是很大，唯一的区别是：collectPartitions产生数据类型不同于collect，collect 是将所有RDD汇集到一个数组里，而collectPartitions是将各个分区内所有元素存储到一个数组里，再将这些数组汇集到driver端产生一个数组；collect产生一维数组，而collectPartitions 产生二维数组。

c语言sscanf函数的用法是什么

340 2022-08-25

RDD行动操作算子 --- foreach（遍历）、collect

c语言sscanf函数的用法是什么

php怎么获取input输入的值

r语言怎么删除数据表某一个数据

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）