京东26秋招零售数仓一面

1.简单问问项目
2.Spark的执行流程
3.宽窄依赖
4.RDD和Dateframe
5.RDD:
是 Spark最基础的分布式数据集合抽象,本质是不可变的、分区的元元素集合(可以是任意类型的对象,如整数、字符串、自定义类等)。
它没有预设的Schema(数据结构)数据以"对象"形式存在,Spark对其内部数据类型无感知。
6.DataFrame:
是带有Schema的分布式数据集合,类似于关系型数据库中的表(有列名和列类型),但数据分布式存储在集群中。
它本质上是RDD的扩展,在RDD基础上增加了Schema元信息(扫描述列名、数据类型等)使Spark能理解数据的结构。7.排序窗口函数
8、python的特点
9.is和==的区别
判断值是否相等用(如比较数字、字符串、列表内容);判断是否为同一个对象用 is(最常见场景是判断xisNone,检查变量是否为None对象)。
sq1:跑得慢,哪里可能有问题-----识别倾斜,拆分处理
全部评论

相关推荐

用微笑面对困难:你出于礼貌叫了人一声大姐,大姐很欣慰,她真把你当老弟
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务