抖音大模型算法二面 45min

1.八股:XGBoost 如何计算特征重要性?Gini 系数在树模型中代表什么?它和信息增益的区别在哪?
2.八股:Decoder-only 模型在推理时,预测第 i+1 个 token 时,输入用的是第 i 个 token 的 one-hot 还是概率分布?为什么?
3.八股:KV Cache 的空间复杂度是多少?如何估算一个 7B 模型在 batch=1、seq_len=2048 下的显存占用?
4.八股:AdamW 和 Adam 的核心区别是什么?Adam 相比 SGD 引入了哪些优化机制?Adam 全称是什么?
5.项目:你们验证集的类别分布是否和线上一致?如何保证标注数据的高质量(比如通过交叉校验 or 专家审核)?
6.项目:在当前 RAG 架构下,如果引入 Few-shot Prompting,为什么能提升输出质量?和微调相比各自适用场景是什么?
7.项目:FAISS 是如何加速向量检索的?你用的是 IVF 还是 HNSW?索引构建时 nlist/nprobe 怎么调?
8.手撕:最长回文子串(LeetCode 5)
全部评论

相关推荐

卡卡罗特ovo:说起云智我就来气,约好了一面,结果面试官没来,ssob上问hr也未读,我还是专门请了半天假在家面试,恶心死了
点赞 评论 收藏
分享
牛客51274894...:照片认真的吗,找个专门拍证件照的几十块钱整端正点吧,要不就别加照片
点赞 评论 收藏
分享
评论
3
8
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务