部门:QQ音乐base地:深圳流程:一面+二面+三面+HR面推进速度:非常快,每一面在一小时内出结果一面 50min自我介绍论文介绍什么是MHAAttention运算公式为什么除以根号dk介绍现有相对位置编码和绝对位置编码的异同点,都有哪些结构RoPE的结构RoPE相比于绝对位置编码的优势是什么?为什么外推性更好?为什么RoPE理论上可以无限外推?RoPE为什么可以利用绝对位置和相对位置的优势?介绍RAG项目(基座模型是什么?几b ?全参微调用了多少卡?数据多大?问答对的形式有图片吗?对RAG的理解是什么?为什么要用RAG?BGE模型的结构什么是LoRA?有个两层神经网络,参数1万*一万,低秩...