阿里多模态大模型算法面经

阿里1面
1.问实习项目。
2.项目上线前的评价指标? RAG 子模块的评价指标?
3.八股:过拟合原因?有什么常见解决思路?
4. 模型训练的显存估计?由哪几部分组成?除了 Model States 之外还有哪些显存占用?·
5.造成多模态大模型缓解的原因?现在常见的缓解思路。
6·场景题:识别图片并生成商品描述,会怎么做?
7.如果这个产品 MLLM 压根没见过,怎么办?
8. 手撕:二维矩阵,里面全是0/1,找联通1联通量的数量。
阿里2面
1.项目经历
2.模型的 loss 函数前乘以10,会对训练造成什么影响?
3.deepseek v3的 rope 实现? deepseek r1的训练过程?
4.做过 rag 是吗?介绍 graph rag ?
5.bge 和 gte 模型怎么训练的?为什么不能直接用 bert - base 来做余弦相似度召回?
6.对比学习的常用 loss 有哪些? InfoNCE 的超参数?温度系数对训练的影响?
7. gradient checkpointing 原理? gradient _ accumulation 原理?
8.多模态大模型的预训练原理?预训练一般分为几个阶段? ViT 现在一般用什么方法进行预训练?
9. 手撕:梯度下降求平方根。
全部评论

相关推荐

评论
2
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务