无论文勇闯秋招算法岗——猿辅导一面
面试官超级无敌好,上来先说我优秀。
50min
项目介绍
介绍到一半的时候面试官开始问场景和八股
多模态模型的感知错误问题,怎么进行caption?
面试官给出的一种思路是让模型生成一些结构化的描述,例如题目的点线面关系,grounding,counting等等,这种比cap更容易judge一些
怎么解决感知错误,过度依赖文本信息的问题?我从预训练数据构造上去说的。
提到了一篇论文,说是把图片mask掉,用rl去增强模型的感知能力
qwen2.5-vl 的位置编码,Mrope,对rope有什么了解,旋转矩阵,外推性很好
什么样的位置编码是好的?计算量要小,...
Rope有缺点吗?
qwen2.5vl 和 qwen3-vl 的区别
为什么qwen2.5-vl 用 window attention?qwen3又不用了。
为什么2.5用绝对坐标,3又改回相对的了。(大佬的看法是预训练用了多少数据,绝对位置的数据多就用绝对位置,相对位置的数据多就用相对位置)
相对坐标有什么好处?(面试官说是在一些SVG的图形上边相对位置转换起来更方便。)
qwen2.5-vl 的token压缩是怎么做的?
intern-vl的token压缩是怎么做的?
pixel-shuffle是啥?
能感觉到猿辅导的氛围非常好。
手撕是带有重复数字的重排列。
问我会不会C++,不会。
leetcode 47