无论文勇闯秋招算法岗——猿辅导一面

面试官超级无敌好,上来先说我优秀。

50min

项目介绍

介绍到一半的时候面试官开始问场景和八股

多模态模型的感知错误问题,怎么进行caption?

面试官给出的一种思路是让模型生成一些结构化的描述,例如题目的点线面关系,grounding,counting等等,这种比cap更容易judge一些

怎么解决感知错误,过度依赖文本信息的问题?我从预训练数据构造上去说的。

提到了一篇论文,说是把图片mask掉,用rl去增强模型的感知能力

qwen2.5-vl 的位置编码,Mrope,对rope有什么了解,旋转矩阵,外推性很好

什么样的位置编码是好的?计算量要小,...

Rope有缺点吗?

qwen2.5vl 和 qwen3-vl 的区别

为什么qwen2.5-vl 用 window attention?qwen3又不用了。

为什么2.5用绝对坐标,3又改回相对的了。(大佬的看法是预训练用了多少数据,绝对位置的数据多就用绝对位置,相对位置的数据多就用相对位置)

相对坐标有什么好处?(面试官说是在一些SVG的图形上边相对位置转换起来更方便。)

qwen2.5-vl 的token压缩是怎么做的?

intern-vl的token压缩是怎么做的?

pixel-shuffle是啥?

能感觉到猿辅导的氛围非常好。

手撕是带有重复数字的重排列。

问我会不会C++,不会。

leetcode 47

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务