美团 语音大模型一面

项目 ,围着项目问了一些
优化器
nf16,fp16  精度
各种层,显存使用占比
Adam
1L 和 2L 序列输入,参数量有什么变动, 从 QK^T 来看
当前模型的,性能评估怎么算的,baseline 是什么
chatGPT 是 decoder,更适于 生成式对话,为什么现在 在 命名实体识别等任务中 表现也比较好
bert 和 chatgpt的区别  

最近看过什么论文

算法题
旋转矩阵

反问
全部评论

相关推荐

评论
1
7
分享

创作者周榜

更多
牛客网
牛客企业服务