度小满大模型算法 实习一面

欢迎友好讨论,信息共享
1.项目拷打
2.moe架构的专家路由是对每个token路由还是对每个序列路由
3.如果是对每个token路由,那么代码实现时是如何避免写对每个token的循环的
4.部署qwen3合成数据时候用的什么框架
5.在用qwen3-32b做推理时显存占用是多少
6.在多卡上部署模型时,用了什么策略使得GPU利用率能拉满
7.讲一讲vllm框架,他是如何保证GPU利用率的
8.讲讲flash attention
9.算法题:反转链表
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务