Shopee 大模型算法开发 一面
1. 自我介绍
2. 介绍你做的模型loss设计,包含基础损失与辅助损失,说明各部分作用与梯度流动逻辑
模型loss采用多任务联合优化框架,主损失负责核心任务拟合,辅助损失用于约束特征对齐、分布对齐与梯度稳定。
以多模态分类模型为例,主损失使用交叉熵损失,直接优化分类准确率;辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征,以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失,保证主任务不被辅助任务淹没,同时利用梯度裁剪解决多任务梯度冲突问题。
import torch
import torch.nn as nn
class MultiModalLoss(nn.Module):
def __init__(self, alpha=0.3, beta=0.2):
super().__init__()
self.ce_loss = nn.CrossEntropyLoss()
self.contrast_loss = nn.CosineEmbeddingLoss()
self.kl_loss = nn.KLDivLoss(reduction="batchmean")
self.alpha = alpha
self.beta = beta
def forward(self, logits, labels, feat1, feat2, logits_teacher):
ce = self.ce_loss(logits, labels)
contrast = self.contrast_loss(feat1, feat2, torch.ones(feat1.size(0)).to(feat1.device))
kl = self.kl_loss(torch.log_softmax(logits, dim=-1), torch.softmax(logits_teacher, dim=-1))
total_loss = ce + self.alpha * contrast + self.beta * kl
return total_loss
3. 扩散模型中噪声预测网络的设计要点,为什么用Transformer比CNN更适合长序列建模
噪声预测网络是扩散模型反向去噪的核心,需精准预测不同时间步的噪声分布。Transformer相比CNN,在长序列建模中具有天然优势:CNN基于局部卷积归纳偏置,难以捕捉长程依赖;而Transformer通过自注意力机制能直接建模全局依赖关系,尤其适合将图像、特征等数据展开为token后进行全局关联,同时支持条件信息的灵活注入,在复杂多模态控制与高维特征建模中表现更优。
4. 大模型微调中,如何解决LoRA适配器与底座模型的特征冲突问题
LoRA通过低秩矩阵学习增量特征,但在多任务切换或多适配器并存时,易出现特征空间冲突。解决方案包括:使用适配器权重归一化,对不同LoRA的增量特征做尺度校正;采用动态路由机制,根据任务需求动态激活对应适配器;在训练时加入特征对齐损失,强制让LoRA学习的增量特征与底座模型特征分布兼容,同时通过梯度正交化减少不同任务适配器的梯度干扰。
5. 推荐系统中,如何处理行为序列的时间间隔偏差,避免模型将平台运营节奏误判为用户兴趣
行为序列的时间间隔受平台推送、活动运营等外部因素影响,直接输入易导致模型噪声拟合。处理方法包括:对时间间隔进行对数缩放与分桶编码,消除极端值影响;引入时间衰减注意力机制,对不同时间间隔的行为赋予动态权重,弱化运营强干扰时段的信号;结合会话边界标记,区分不同会话的行为语义,避免跨会话的时间噪声叠加;最后通过因果推断去除运营策略带来的伪相关。
6. 大模型推理中,PagedAttention如何解决显存碎片问题,相比传统Attention有哪些优化
PagedAttention通过将键值对缓存划分为固定大小的页面,动态分配与释放显存,避免了传统Attention中连续显存申请导致的碎片堆积,同时支持按需加载页面到显存,大幅提升显存利用率。传统Attention在长序列推理时,需一次性加载完整键值矩阵,易出现显存不足或碎片过多导致的OOM;而PagedAttention支持流式页面加载,按需计算注意力,同时通过内存复用减少冗余存储,提升了推理的稳定性与吞吐量。
7. 多模态表征学习中,跨模态对齐的难点,以及如何保证不同模态特征的语义一致性
跨模态对齐难点在于不同模态的特征分布、语义表达形式差异极大,如图像是像素特征、文本是词向量特征,存在模态鸿沟;同时,跨模态数据存在不对齐问题,如图文描述不匹配、特征维度不一致。保证语义一致性的方法包括:采用对比学习框架,让同类跨模态特征在语义空间中聚集、异类特征分离;设计跨模态注意力机制,让不同模态特征在注意力层进行动态交互与对齐;引入统一语义空间映射,将不同模态特征投影到同一向量空间,同时通过模态特定的归一化层消除模态分布差异。
8. 推荐系统中,多目标学习的梯度冲突问题,以及如何通过任务归一化缓解
多目标学习中,不同任务的损失梯度方向可能冲突,导致模型训练不稳定或收敛变慢。梯度
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.