无论文——科大讯飞

合肥,多模态,预训练,基座组(不一定去),30min

华为的卡上训的,几百台

问 qwen3vl 的预训练

问 qwen2.5vl 的预训练

问 qwen2.5vl 和 qwen2vl 的区别

问 gspo grpo dapo 的区别

deepspeed zero/ flash attention

看着像个大佬

无手撕

星火大模型

全部评论
同学,瞅瞅我司,医疗独角兽, 因为新业务扩展,11月校招HC暴增! 我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 11-22 09:35 广东

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务