大模型基础架构岗面经

  1. moe和dense模型的区别,各自的优缺点 a. 参数量,计算量,训练效果,如何选择
  2. deepspeed原理,你是否可以从理论上对 ds 的 stage3 阶段的性能进行分析
  3. 混合并行策略是否了解,介绍一下 TP,PP,DP 的使用场景
  4. 介绍一下混合精度训练的原理和优势 ● 追问量化技术是否了解
  5. 是否了解 Hopper 架构的新特性,对 flash-attention3 是否了解,两者的结合如何
  6. 介绍一下 SM,SP,warp 相关概念和关系(感觉想问 warp-group...
  7. 力扣手撕:岛屿数量
  8. 未来发展方向,对 LLM 行业的态度及意向
全部评论
感谢分享
1 回复 分享
发布于 2024-08-18 23:31 黑龙江
是不是太大了
点赞 回复 分享
发布于 02-19 20:18 上海
请问是哪家公司呀?
点赞 回复 分享
发布于 2024-09-09 02:23 上海

相关推荐

面的是字节的国际电商部门感觉是卷中卷了被狠狠拷打了😭面试问题:- 解释一下ROC曲线与PR曲线的关系、ROC曲线与PR曲线的适用场景- 介绍一下贝叶斯定理(贝叶斯公式和全概率公式)- 考了一个概率题:已知一个随机发生器,生成 0 的概率为  p ,生成 1 的概率为  1 - p 。请构造一个新的随机发生器,使其生成 0 和 1 的概率均为 1/2。- (针对简历提问)了解矩阵分解吗 MF、LFM吗- 训练模型的时候,怎么才能知道模型是不是过拟合了?除了看训练集和测试集的准确率,还有哪些方法可以防止过拟合?比如正则化、交叉验证这些,能不能展开讲讲怎么用?- 推荐系统里老听到CTR预估和序列推荐模型,讲讲这些模型是干啥的?比如DIN、DIEN这些CTR模型是怎么捕捉用户兴趣的?还有GRU4Rec、Caser这些序列模型是怎么处理用户行为序列的?它们各自解决了什么问题?代码题:- 给定整数数组 nums,求最大和的连续子数组,并返回该最大和。(最大子数组和LeetCode53)- 手写一个二分类交叉熵bce,使用np(只把bce的公式写出来了,然后拷打怎么计算梯度,最好熟悉一下二分类梯度怎么回传的,被拷打到了这里)一面一般是组内员工,平时比较忙,这场面试约在的中午11点,所以如果能够把你的项目介绍得详细一点,就容易不让面试官问太多问题,一般我大概是2-3min自我介绍,然后再10min介绍一个项目(2-3个项目说完差不多就去一大半面试时间了),然后最后面试官不是主动型+忙着去吃饭,就会问些常见的面经,然后碰巧见过的爆率很高,然后直接吟唱。这里拷打了概率类型的问题,印象里至少有4/32次面试提到了类似的概率场景题目,建议也是稍微复习一下,至少看看基础的内容。国际电商(tiktok)据说晋升不错(同时也卷),毕竟是出海业务,但是是真的难进(听说很多清北大佬都挂了),不太懂想要招什么人(岗位名额实在太少)  
查看8道真题和解析 面试问题记录
点赞 评论 收藏
分享
评论
8
53
分享

创作者周榜

更多
牛客网
牛客企业服务