大模型算法面经分享 日常实习
攒攒人品~
1. Lora应用于哪些模块?为什么是这两个模块?
2. Lora两个矩阵怎么初始化?它们的初始化方式能交换吗?为什么?
3. Lora r 怎么设置的?为什么这样设置?
4. 残差连接的作用?
5. 怎么train一个好的lora?具体超参数怎么设置的怎么调优?为什么不只靠学习率,为什么还需要ahlpa/r?
6. top-k,top-p,temperature是怎么实现的?
7. Qwen2.5VL做了哪些改进?
8. 为什么大模型需要强化学习,比起SFT有什么区别?
9. 现在的embedding模型有哪些问题?怎么改进?
1. Lora应用于哪些模块?为什么是这两个模块?
2. Lora两个矩阵怎么初始化?它们的初始化方式能交换吗?为什么?
3. Lora r 怎么设置的?为什么这样设置?
4. 残差连接的作用?
5. 怎么train一个好的lora?具体超参数怎么设置的怎么调优?为什么不只靠学习率,为什么还需要ahlpa/r?
6. top-k,top-p,temperature是怎么实现的?
7. Qwen2.5VL做了哪些改进?
8. 为什么大模型需要强化学习,比起SFT有什么区别?
9. 现在的embedding模型有哪些问题?怎么改进?
全部评论
相关推荐
查看10道真题和解析