字节算法一面

1. 自我介绍,大概 2 分钟。

2. 详细聊聊项目,比如损失函数是怎么设计的?

3. 讲讲 LoRA 微调。

4. 手撕:Multi-Head Attention (MHA)。

5. MHA 里面除以根号 k 是干嘛的?

6. 什么是梯度消失和梯度爆炸?怎么缓解?

7. QKV 分别代表什么?说说你的理解。

8. 如果 Q 和 K 变成同一个矩阵,会有什么影响?

9. 除了 LoRA,还知道哪些微调方法?

10. 实习时主要做 Agent 相关的是吧?简单问一下 RAG 和 CodeAct。

11. 手撕:n 个长度为 m 的升序数组,找出 TopK。面试官提示用大根堆,但我用归并写的,也通过了。

全部评论
礼貌求bg
1 回复 分享
发布于 09-12 16:51 广东

相关推荐

评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务