数开 1.spark SQL执行过程2.DAG图怎么划分,RDD是什么3.宽窄依赖怎么划分,哪些算子会生成宽依赖,哪些算子会生成窄依赖4.宽依赖partition怎么处理,怎么去减少shuffle5. spark相对于MapReduce的优势6.spark内存爆了,怎么定位是否出现这个问题,问题出现在哪7.具体看哪个指标才能知道是否是内存爆了,内存溢出会带来什么问题8.spark和flink做实时有什么区别9.水位线什么概念10.窗口关闭只能根据水位线来实现吗11.flink分哪几种窗口.实习项目拷打1.实习主要工作是什么2.数仓是指针对某一个业务做的数仓吗3.业务指标主要包括什么指标,做这个指标的目的是看什么,指标是怎么算的4.数据质控规则,具体规则是指什么5.数据校验规则是怎么做的6.数据质量达标率是怎么算的,口径手撕SQL:每个被举报视频品类中举报数量最高的5个视频反问