1. 自我介绍2. 多模态里的旋转位置编码是怎么落到二维视觉 token 上的二维视觉 token 不像纯文本那样天然是一维顺序,所以多模态里的 RoPE 通常不会直接照搬文本侧。常见做法是把二维位置拆成行和列两个轴,分别做旋转位置编码,再把两个方向的信息组合到同一个视觉 token 表示里。这样模型在注意力里不仅能感知“前后”,还能保留一部分“上下左右”的相对结构。真正难的不是公式本身,而是视觉 token 经过压缩、重采样、patch merge 之后,原始空间坐标已经不再一一对应。这个时候二维 RoPE 的设计就要和视觉编码器、projector 以及后续 token 压缩方式一起看,否...