度小满大模型算法 实习一面
欢迎友好讨论,信息共享
1.项目拷打
2.moe架构的专家路由是对每个token路由还是对每个序列路由
3.如果是对每个token路由,那么代码实现时是如何避免写对每个token的循环的
4.部署qwen3合成数据时候用的什么框架
5.在用qwen3-32b做推理时显存占用是多少
6.在多卡上部署模型时,用了什么策略使得GPU利用率能拉满
7.讲一讲vllm框架,他是如何保证GPU利用率的
8.讲讲flash attention
9.算法题:反转链表
1.项目拷打
2.moe架构的专家路由是对每个token路由还是对每个序列路由
3.如果是对每个token路由,那么代码实现时是如何避免写对每个token的循环的
4.部署qwen3合成数据时候用的什么框架
5.在用qwen3-32b做推理时显存占用是多少
6.在多卡上部署模型时,用了什么策略使得GPU利用率能拉满
7.讲一讲vllm框架,他是如何保证GPU利用率的
8.讲讲flash attention
9.算法题:反转链表
全部评论
相关推荐
03-17 13:34
广州南洋理工职业学院 内容运营 点赞 评论 收藏
分享