1.mapreduce执行流程2.hdfs如何保证数据一致性3.flink和kafka如何保证数据的一致性4.flink的checkpoint里的barrier对齐和非对齐分别如何实现exactly-once;非对齐实现需要怎么做?5.kafka如何保证数据一致性6.spark和mr的shuffle有哪些区别7.spark的内存参数一般怎么调整;一般集群的spark内存参数会在什么样的一个级别?8.数仓分层,每一层有什么作用?具体的全链路流程是什么样的?9.维表应该如何进行设计?10.用户画像如何搭建?11.然后是一些数据结构的考察。12.然后是两道sparksql题,不难。其中一个是考察数据构造,需要对sparksql有较深的使用了解。