1.八股:LoRA 和全参数微调的核心区别是什么?在显存和训练效率上各有什么优劣?2.八股:DPO、PPO、GRPO 三者的优化目标有何不同?为什么 GRPO 的 loss 中要显式加入 KL 散度项?3.八股:Transformer Encoder 中 FFN 的作用是什么?4.八股:什么是 DeepSeek 的 MLA?它的优势是什么?5.项目: 你在实习中用 LoRA 微调了哪个开源大模型?具体 rank、alpha、dropout 是多少?为什么这样设置?6.项目:SFT和DPO 数据是否有重叠?DPO 的偏好数据是如何构造的?人工标注成本大概多少?7.项目:你们的 RAG 系统召回阶段用了 BGE-M3 还是 BM25?最终选择依据是什么指标(如 Recall@k)?BGE-M3 输出向量维度是多少?8.项目:为什么不用纯向量相似度直接生成答案,而要再过一遍大模型?这样做对幻觉和安全性有什么帮助?9.手撕:接雨水(LeetCode 42)