美团 语音大模型一面
项目 ,围着项目问了一些
优化器
nf16,fp16 精度
各种层,显存使用占比
Adam
1L 和 2L 序列输入,参数量有什么变动, 从 QK^T 来看
当前模型的,性能评估怎么算的,baseline 是什么
chatGPT 是 decoder,更适于 生成式对话,为什么现在 在 命名实体识别等任务中 表现也比较好
bert 和 chatgpt的区别
最近看过什么论文
算法题
旋转矩阵
反问
优化器
nf16,fp16 精度
各种层,显存使用占比
Adam
1L 和 2L 序列输入,参数量有什么变动, 从 QK^T 来看
当前模型的,性能评估怎么算的,baseline 是什么
chatGPT 是 decoder,更适于 生成式对话,为什么现在 在 命名实体识别等任务中 表现也比较好
bert 和 chatgpt的区别
最近看过什么论文
算法题
旋转矩阵
反问
全部评论
相关推荐
点赞 评论 收藏
分享

点赞 评论 收藏
分享

点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享