攒攒人品!有面试过同岗的朋友欢迎评论区交流实习拷打1. 大模型微调中,如何解决蒸馏数据里“伪优质数据”(表面合规但实际存在误导性)的筛选问题?具体落地策略是什么?2. Prompt迭代时,如何平衡“指令遵循率”和“业务适配性”?当两者冲突(比如按指令输出但不符合业务规范),你是怎么优化的?3. 用LoRA做大模型微调时,遇到过过拟合/欠拟合问题吗?具体是怎么排查、解决的?对比全参微调,LoRA在解决这类问题时的优势和局限分别是什么?4. 设计GRPO奖励函数时,当遇到跨场景需求,奖励权重如何动态调整?合规性的自动化评估,怎么适配不同场景的规范要求?5. 如何通过业务反馈闭环(用户反馈),反哺模型微调、Prompt优化和数据筛选?举1个你实际处理过的Bad Case,说明完整优化链路。八股1. Self-Attention中Q/K/V各自作用?为什么要分开?2. 把K换成Q(QQV)可行吗?为什么?