LLM大模型算法面经
1、说一下PPO算法
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
全部评论
相关推荐
01-31 10:30
浙江大学 算法工程师 1.项目介绍2.llamfactory和huggingface框架的区别3.模型幻觉怎么处理,为什么会有幻觉4.模型输出的处理,如果输出不是你想要的该怎么办5.栈和堆,c++的智能指针代码:手撕最大堆
查看6道真题和解析 点赞 评论 收藏
分享