百度多模态一面凉经

感觉对项目拷打的比较深,常规的八股考的不太多。多模态可以参考的信息也比较少。

1 lora微调的epoch是多少 ?和常规的大模型epoch有什么区别?为什么
2 clip为什么要创建两个表,分别做文本到图像和图像到文本的映射?对角线上的这两个值难道不是一样的吗?
3 对图像的傅里叶变换,真的可以把图像的频域信息提取出来吗? 都是时间域的嵌入转化为频域是否有可解释的物理含义?你是否做过相关实验?比如看每个图像高频低频的部分相关程度?
4 交叉熵怎么计算? 什么时候需要softmax
5 qwen vl三阶段的过程都是什么? 这样做有什么好处?最后一个阶段做了什么事情
6 显著性目标检测为什么生成的是mask?这不是和图像分割类似吗? 为什么不是描框? 显著性目标检测的matrix为什么是IoU?你能解释一下是怎么计算的吗?
7 针对样本不平衡的问题,训练的损失函数可以做什么改动?你是否了解focal loss?
8 你对强化学习了解吗?大模型中强化学习用什么技术?(感觉是想问DPO那些的)
9  swin transformer了解吗?是怎么实现的降低复杂度? 在一个patch内使用滑动窗口还有什么其他的好处?
全部评论

相关推荐

码农索隆:你告诉他,你看他也一般
点赞 评论 收藏
分享
07-16 11:42
已编辑
北京大学 算法工程师
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务