商汤算法大模型一面-实习面经

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.怎么优化显存?
2.transformer中的注意力机制、为什么用softmax、为什么用点积:余弦相似度不行吗?
3.PT SFT RL的关系?可以互相替代吗?
4.batch size调整过吗?lr有调整过吗?两者需要一起调整吗?
5.LoRA原理?数学原理?
6.文档去重?
手撕代码(一道浅拷贝,一道hot100中等题)
全部评论

相关推荐

评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务