2020-09-18 14:57 已编辑蚂蚁集团_后端开发工程师

关注

【Python3实战Spark大数据分析及调度】第3章 Spark Core核心RDD

第3章 Spark Core核心RDD

大部分截图来自于官网：http://spark.apache.org/docs/latest/rdd-programming-guide.html

RDD源码：源码git地址

RDD五大特性：

1. A list of partitions
RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。
2. A function for computing each split
RDD的每个partition上面都会有function，也就是函数应用，其作用是实现RDD之间partition的转换。
3. A list of dependencies on other RDDs
RDD会记录它的依赖，为了容错（重算，cache，checkpoint），也就是说在内存中的RDD操作时出错或丢失会进行重算。
4. Optionally,a Partitioner for Key-value RDDs
可选项，如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，例如这里自定义的Partitioner是基于key进行分区，那则会将不同RDD里面的相同key的数据放到同一个partition里面
5. Optionally, a list of preferred locations to compute each split on
最优的位置去计算，也就是数据的本地性。移动数据不如移动计算。

RDD五大特性源码体现

图解RDD

SparkContext&SparkConf详解

创建RDD

从外部使用parallelize，注意后面加数字是改变partitions的数量，reduce和collect的动作操作会执行计算
从文件中创建

注意如果是本地文件系统，需要注意以下问题：

支持文件夹下所有文件，多个正则文件，gz压缩文件
可以控制partition的数量，默认partition是hdfs中的一个block，128M

使用wholeTextFiles读取文件位置和文件内容

保存和加载Sequence File

从ES中读取数据

数据存储

Spark应用程序的开发以及运行

设置参数操作：

添加使用的python的路径

添加使用的spark路径（就是把前面路径中的/python去掉）

然后apply
两个zip包。
打开preference

添加完成，最后示范一段简单的开发代码

在集群上提交代码

spark-submit --help可以看到官方的一些指示

全部评论

推荐最新楼层

06-12 11:16

湖南大学 Web前端

牛友们是都不考虑小厂吗？

我看到好多人都在说0offer好焦虑，结果一看是投了百度快手字节啥的。好像大家都是只想通过校招进大厂，对小公司是不考虑的吗😂可是能进大厂的难道不是只有少部分人吗，真心发问

梦想是成为七海千秋：沉默的大多数吧，喜欢晒的都是能引起共鸣的大厂，找小厂的人，别人也不认识你这个小厂，就自己偷偷找了实际上大多数人哪有什么机会能找到大厂

点赞评论收藏

分享

06-12 12:04

安徽新华学院 PCB工程师

失眠，25届 0offer 我该怎么办！

25届硕士毕业狗一只，秋招春招都试了挺多。曾经秋招有一个offer，却被告知hc满了。后来，要么是投了没动静，要么是面试了就凉了，好不容易前几天快手捞我补录，一天三面，加起来3个小时，本来以为很有希望了，结果三面以后挂了。。。为什么，就差那么一点点，就是没有一个地方要我的看着身边的同学都找到了工作，我心里难免会失落。谢师宴的时候，出去毕业旅行的时候，和大家开开心心的笑着，可是一个人的时候就会偷偷哭，失眠，感觉胸闷的不行，好难过，我觉得自己并不差，但是我感到很挫败。我之前没有准备考公考编，1是感觉去年太卷了，2是觉得对我的性格是一种拘束，就丝毫没有准备考试的东西。现在怀疑自己是不是错了，要不要重...

点赞评论收藏

分享

06-10 21:15

门头沟学院 Java

这正常吗？毕业了还要实习。

宁阿：好多这种没🧠的公司，他们估计都不知道毕业的人不能给安排实习岗

实习吐槽大会

点赞评论收藏

分享

06-03 17:01

门头沟学院 Java

小厂实习还有考察吗？

大家实习都是做这么厉害的项目吗？我要是能做这种应该是不会0offer了吧

热血的ssr摆烂了：这种要比后端简单

点赞评论收藏

分享

不愿透露姓名的神秘牛友

06-12 18:53

无水工作？？？？

第一次听说还有无水工作!!!又是被刷新三观的一天

Lynn012：666第一次听到，你给他说这里不方便我们加个微信

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

华为开奖进度👉

热聊中

创作者周榜

更多

正在热议

更多

# 职场捅娄子大赛 #

369361次浏览 3768人参与

# 什么专业适合考公 #

32154次浏览 207人参与

# 写给毕业5年后的自己 #

13381次浏览 241人参与

# 秋招被确诊为…… #

157937次浏览 715人参与

# 安克创新求职进展汇总 #

35676次浏览 425人参与

# 找实习你看重大厂光环还是业务方向 #

10950次浏览 86人参与

# 软开人，秋招你打算投哪些公司呢 #

97562次浏览 925人参与

# 你的房租占工资的比例是多少？ #

29620次浏览 333人参与

# 考研对你找工作产生了哪些影响？ #

16909次浏览 148人参与

# 蚂蚁求职进展汇总 #

104966次浏览 1112人参与

# 机械人怎么评价今年的比亚迪 #

54698次浏览 183人参与

# 计算机专业还有必要去大厂卷吗 #

23245次浏览 120人参与

# 你最满意的offer薪资是哪家公司？ #

27407次浏览 149人参与

# 你觉得技术面多长时间合理？ #

95015次浏览 690人参与

# 每人推荐一个小而美的高薪公司 #

74605次浏览 1364人参与

# kpi面有什么特征 #

41398次浏览 329人参与

# 工作压力大怎么缓解 #

82630次浏览 948人参与

# 秋招提前批启动你开冲了吗 #

119665次浏览 1908人参与

# 打杂的实习你会去吗？ #

111976次浏览 973人参与

# 牛友打假中心 #

90413次浏览 2652人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务