来写写两个多月前的过期面经。1. 实习经历深挖。2. 优化代码逻辑、解决数据倾斜的优化思路。3. Spark 中 Stage 如何划分?依据是什么?4. Spark 的容错机制如何实现?未到达 Checkpoint 时失败会怎样?5. 广播变量(Broadcast)的传输机制是什么?如何处理大文件广播导致的网络压力?6. Spark 和 Flink 的核心区别是什么?适用场景有哪些?7. Flink 的状态管理机制是什么?有哪些状态类型?8.两道算法题+1道SQL题。