感觉自己好菜、面试很难,还是要多多练习1.大模型相关经历深挖:你项目里最核心的贡献是什么,怎么验证有效2.对比学习 loss:负样本和正样本拉不开/太像了,你会怎么改损失或采样3.FlashAttention 跟普通 attention 的差异?实现里 QK^T、softmax、PV 这几步怎么落4.3D 并行里 DP/DDP你怎么理解;实际落地时通信瓶颈一般卡在哪些环节5.14B:FP16 权重大概多大;训练还要加哪些;INT8 大概能省多少6.torch.contiguous() 干嘛的?推理为什么在意连续性7.代码:读 txt 井字棋(3×3),判断当前玩家是否获胜8.交叉熵损失:解释/怎么写9.线性回归用 SGD:更新公式怎么推/怎么写