1.简单问问项目2.Spark的执行流程3.宽窄依赖4.RDD和Dateframe5.RDD:是 Spark最基础的分布式数据集合抽象,本质是不可变的、分区的元元素集合(可以是任意类型的对象,如整数、字符串、自定义类等)。它没有预设的Schema(数据结构)数据以"对象"形式存在,Spark对其内部数据类型无感知。6.DataFrame:是带有Schema的分布式数据集合,类似于关系型数据库中的表(有列名和列类型),但数据分布式存储在集群中。它本质上是RDD的扩展,在RDD基础上增加了Schema元信息(扫描述列名、数据类型等)使Spark能理解数据的结构。7.排序窗口函数8、python的特点9.is和==的区别判断值是否相等用(如比较数字、字符串、列表内容);判断是否为同一个对象用 is(最常见场景是判断xisNone,检查变量是否为None对象)。sq1:跑得慢,哪里可能有问题-----识别倾斜,拆分处理