算法打工人阿旺

09-20 23:25 中山大学算法工程师发布于山东

关注

阿里通义实验室大模型算法一面面经

一面
1.先自我介绍
2.说一下 LoRA 是什么原理
3.了解 DeepSpeed 吗， ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化
4.Qwen的模型结构是怎么样的，相比于 LLaMA , DeepSeek 有什么区别
5.怎么缓解大模型的幻觉问题
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方， DeepSeekMoE 为什么效果好，有什么值得我们借鉴创新点
7.知道FP16和BF16有什么区别吗，包括FP32和INT8这些，在训练大模型的时候，应该怎么选择
8.讲一下 RLHF 的流程， PPO 和 DPO 算法是什么思想，写一下 PPO 和 DPO 的 Loss 表达式
9.对于超长上下文业界一般是怎么做的，你知道 Qwen 是怎么做的吗
10.开放题：你觉得目前大模型的上限在哪里
11.代码：152．乘积最大子数组
🌟总结:整体面下来感觉难度还是蛮大的，几乎各个方面都被考察到了
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

10-21 22:15

门头沟学院推荐算法

阿里通义实验室大模型算法一面面经

1.自我介绍 2. Lora 原理（核心是低秩分解：将原始权重更新近似为两个低秩矩阵乘积，减少参数量，保留主导方向，训练高效） 3.了解 DeepSpeed 吗， ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化 （1 优化优化器状态，2 优化梯度，3 切分参数，全面节省显存） 4. Qwen的模型结构是怎么样的，相比于 LLaMA, DeepSeek 有什么区别（Qwen采用GQA+SwiGLU+RMSNorm，和LLaMA架构非常相似，差异在训练数据和tokenizer中文支持更好；DeepSeek只用MoE/ MLA架构，Qwen系列主要是Dense模型） 5.怎么缓解...

查看11道真题和解析

点赞评论收藏

分享

11-02 09:10

门头沟学院 Java

快手大模型算法面经

1.你这个xx实习的项目能展开讲讲吗？你主要负责哪块？为什么是你来做这块？2.自动化评估体系这里能具体说说怎么评的吗？哪些维度3. 多维度自动化评估体系，那每一个维度是怎么做的？比如你说的关键词匹配和问答对，这个流程怎么构建的4.图表的准确性你怎么评估的？怎么从markdown和HTML 里提取对应图表并比对的？有没有一些异常case举个例子？5.用了playwright去截图，那遇到报错或者渲染失败怎么办6不同设备模块比如交换机、服务器，它们的字段特征都不一样，那你怎么做统一化训练7.那你这个知识图谱底层是用什么数据结构存的8.用的是PAI吗？那有没有对比过比如说 igraph或者图数据库像GraphScope这些之间有啥区别9有没有用过一些大模型的推理？比如说用千问做辅助根因预测10你们这套系统的准确率和召回率大概是多少，那比如说没有到90%，你们是认为这个指标是OK的吗11所以它是系统推理出根因之后还需要人工check，然后才能执行故障预案，有没有哪一部分流程是完全自动化的12你们平台现在接的主要是底层设备指标，那有没有接入一些业务指标，比如订单失败率转化率这类的业务数据13我有个疑问就接入业务指标的话你需要知道整个平台的服务拓扑，那你们这个平台是怎么接入业务侧拓扑的？是自己做的吗？还是中台团队负责15.那你既然用过图数据库，你知道它底层的存储结构是怎样的吗？比如它是怎么组织边和节点的16.我们现在是两阶段推荐架构：第一阶段召回用的是embedding点积召回，第二阶段是MLP跟transformer做多目标打分。那你觉得在我们这么大规模的数据量下，如果要做real-time re-ranking，你会在架构上怎么做trade-off？怎么压低latency17.我们现在在做embedding精度提升也试过加cross tower、attention pooling 甚至meta learning，但发现一旦模型重了，就难以部署到线上实时系统。那你觉得在embedding learning的这个模块里，有哪些方案能在不严重影响线上性能的情况下提升语义表示能力18.我们现在二阶段模型训练的是watchtime、like、share、follow这些目标。但有些目标（比如 share、follow）非常稀疏，有的时候一个batch里面都没有。你要设计一个loss来处理这类多目标问题，既保证主目标收敛，又不能让稀疏目标完全失效，你会怎么设计

查看17道真题和解析

点赞评论收藏

分享

10-24 14:24

门头沟学院算法工程师

字节算法一面凉经

岗位偏多模态、内容理解写面经，攒人品1. 从实习项目中提问八股（1）视频数据是如何采样的？抽几帧？分辨率多少？（2）采样后的数据是如何过模型的？（3）用的什么模型？介绍一下？（4）了解其他的多模态大模型吗？介绍一下？（5）介绍一下transformer的结构？（6）介绍一下multihead-attention?（7）multihead-attention为什么要切分？为什么要做成多头的？（8）你觉得多头注意力能提高计算效率吗？结合公式推导一下？（矩阵计算）（9）不能提高计算效率，详细讲讲为什么？（10）multihead-attention现在有一些优化，现在主流的优化都有哪些方向，每个方向...

查看15道真题和解析

点赞评论收藏

分享

10-22 13:37

西安交通大学 Java

看了牛客很多帖子 很少有讨论通义的 请问大家通义招聘的进度咋样呀？是不是通义还没开始下意向… 小弟这周刚刚终面完

点赞评论收藏

分享

11-05 17:15

中南大学算法工程师

美团秋招大模型应用一面

1、介绍自己的中厂实习。2、追问实习业务的上下游，以及交付标准、测试集怎么构成:3、追问为什么这个业务要引入大模型，大模型解决了什么问题。4、大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题。5、讲一下PPO和GRPO的原理和区别6、如何理解强化学习中熵的概念，如何保证训练过程中熵保持在较高的水平。7、强化学习中调参的经验8、强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。9、多模态大模型的训练过程有什么不同?10、多模态大模型的vision encoder一般使用vit的第几层输出?11、mlp和Q-former两个模态融合模块的优劣?12、手撕二叉树层序遍历

查看12道真题和解析

点赞评论收藏

分享

评论

2

8

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 同bg的你秋招战况如何？ #

173560次浏览 1016人参与

# 2022毕业即失业取暖地 #

115735次浏览 702人参与

# 联影求职进展汇总 #

50659次浏览 322人参与

# 你实习是赚钱了还是亏钱了？ #

29007次浏览 236人参与

# CVTE求职进展汇总 #

22481次浏览 319人参与

# 用一句话形容你的团队氛围 #

17658次浏览 177人参与

# 360集团校招 #

20792次浏览 164人参与

# 哪些公司校招卡第一学历 #

219605次浏览 775人参与

# 牛客租房专区 #

122234次浏览 1347人参与

# 嵌入式岗知多少 #

58197次浏览 548人参与

# 联影医疗求职进展汇总 #

5406次浏览 24人参与

# 毕业论文进行时 #

6084次浏览 80人参与

# 机械人与华为的爱恨情仇 #

136723次浏览 1011人参与

# 58同城求职进展汇总 #

39645次浏览 263人参与

# 我来点评面试官 #

15628次浏览 111人参与

# 找实习你看重大厂光环还是业务方向 #

41002次浏览 163人参与

# 面对逼签的应对技巧 #

6357次浏览 33人参与

# 扒一扒那些奇葩实习经历 #

126141次浏览 1098人参与

# 今年秋招是回暖还是遇冷 #

29736次浏览 187人参与

# 腾讯音乐求职进展汇总 #

135472次浏览 1004人参与

# 实习返校后，你的精神状态是__？ #

36889次浏览 153人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务