百度文心一言nlp算法实习一面

1. 介绍transformer
2. 介绍self-attention的计算公式,为什么除以根号下dk
3. 介绍multi-head attention,为什么要用的多头的注意力机制
4. llama中的transformer跟普通的有什么改进
5. 为什么要使用 rms-norm
6. 排序用的point-wise还是pair-wise,为什么

手撕:最长单调上升子序列
全部评论

相关推荐

2025-12-13 14:51
已编辑
井冈山大学 算法工程师
龙虾x:算法比你强的没有你美,比你美的…..算了已经没有比你美的了
工作两年想退休了
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务