你已经一天没更新了！生产队的牛都不敢这么休息😝_牛客网

2022-08-15 19:33 门头沟学院推荐算法

关注

你已经一天没更新了！生产队的牛都不敢这么休息😝

03-23 23:42

山东大学嵌入式软件工程师

面试官问“为什么Attention要做成多头，而不是单头就够了”怎么回答

面试里如果被问到“为什么Attention要做成多头，而不是单头就够了”，很多人会先回答一句：“因为多个头可以关注不同子空间的信息。”这个方向并没有错，因为我最一开始学算法的时候，也思考过这个问题，但那会儿搜到的也就是这些原理罢了，但问题在于，这个说法太抽象了。面试官如果继续追问一句“什么叫不同子空间？到底不同在哪”，很多人就接不下去了，反正我到毕业写完论文了都没想过这个点。要把这道题答好，其实需要先回答一个更本质的问题：如果只有一个头，究竟会出什么问题？把这个问题讲透，多头注意力的问题也就解答了。（我的回答建议在文末）一、先别急着讲多头，先看单头的瓶颈到底是什么先从单头注意力开始。假设输入序...

AI面试题目精讲

点赞评论收藏

分享

03-18 11:15

门头沟学院推荐算法

字节AI大模型算法二面

多模态模型横向对比除了 Video-LLaMA，还了解哪些主流多模态大模型？→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF：基于图像 - 文本对比学习，搭配动量蒸馏来优化图文对齐效果；BLIP：引入 captioner 生成高质量图文对，再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么？两阶段训练流程是怎样的？用到了哪些损失函数？→ 结构：在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1：冻结 ViT 和语言模型，只训练中间的 Q-Former→ Stage2：冻结语言模型，将 Q-Former 与 LM 连接，做指令微调→ 损失：ITC（图文对比损失）+ ITM（图文匹配损失）+ LM 生成损失微调方法（PEFT 全家桶）了解 PEFT 吗？再讲讲 LoRA，重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称，核心是只训练少量参数而不动原模型权重；LoRA 假设模型权重更新量 ΔW 具有低秩特性，将其分解为 A×B，只训练 A、B 两个低秩矩阵，既节省显存又能保留效果除了 LoRA，还有哪些 PEFT 方法？Prefix-tuning 和 P-tuning 有什么区别？→ 其他方法：Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning：在输入序列前加可学习的 prefix，作用于注意力的 K/V 矩阵，更适合 decoder-only 架构→ P-tuning：用小型网络（如 LSTM）生成连续的 soft prompt，解决离散 prompt 不稳定的问题，更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么？多模态特征是如何喂给大模型的？→ 示例流程：视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后，为什么还需要 RLHF？→ 指令微调只是让模型学会遵循指令，但输出可能更偏向 “模板化”；RLHF 是通过人类偏好对齐，让模型输出更符合人类价值观、更自然、更有用的回答，解决 “有用性” 和 “安全性” 问题了解 RLHF 吗？描述它的完整训练流程→ 三阶段流程：① SFT 微调：用高质量指令数据对预训练模型做监督微调，让模型学会基本指令遵循② 训练 Reward Model（RM）：用人类标注的偏好数据训练奖励模型，学习给不同模型输出打分③ PPO 优化：用 RM 作为奖励信号，通过 PPO 算法更新策略模型，最大化 RM 给出的奖励，实现与人类偏好对齐手撕 LeetCode 原题：合并 k 个升序链表→ 核心思路：用小根堆维护 k 个链表的当前节点，每次弹出最小值节点并入结果链表，再将该节点的下一个节点入堆，直到所有链表遍历完毕；时间复杂度 O (N log k)，N 为总节点数

查看9道真题和解析

点赞评论收藏

分享

03-26 07:50

门头沟学院推荐算法

字节大模型算法面经-面麻了已经

攒人品中，祝大家都能拿到满意的Offer！1.项目拷打2生成式推荐本质上是在做隐空间到离散iD的映射，你如何证明你生成的 ID 序列保留了用户意图的最优压缩3.比如广告场景下不仅仅是预估 CTR。如果我们将生成式排序引入 GSP拍卖，大模型生成的候选列表概率分布，如何保证满足激励相容性4如果模型生成的排序导致广告主出现竞价上的博弈呢5.在H100集群上跑生成式重排，现在的瓶颈不在计算而在存储带宽。如果分阶段推理，我在Prefill阶段采用了FlashAttention-3，但在 Decoding 阶段因为 KV Cache 导致的Fragmented Memory太严重，怎么办6.推荐系统要求毫秒级响应对于1B规模的排序模型，如果我要做Speculative Decoding，你如何设计那个Draft Model？这个小模型是该学大模型的 Logits 分布，还是该学用户的Embedding聚类7.假设构建一个端到端生成式广告系统。现在面临一个场景：某个新入驻的土豪广告主投放了一批高质量视频，但由于模型对新 ID 的 Semantic Indexing 尚未完全对齐，导致第一波推荐给了错误的人群，产生了极高的 Negative Feedback，生成式模型的自回归特性会不断放大这种“第一印象”，导致该广告主瞬间被屏蔽你如何设计一套Online Counterfactual Correction这种，在不重新训练模型的前提下，通过修改 KV Cache里的隐藏状态来强行挽回这批广告的生命周期9.在短视频重排阶段使用了一个 10B 的生成式模型但是业务反馈说模型在学会了今天最火的某个梗以后，竟然忘记了如何处理用户对“长尾科普视频”的旧兴趣，发生了明显的 Catastrophic Forgetting，设计一种基于 Gradient Orthogonal Projection的优化器，确保模型在更新实时热点知识时，参数更新量在旧知识的Null Space内。10.都知道生成式模型有位置偏差从 Attention Entropy 的角度来看，为什么 $N$ 个候选 Item 在序列中的排列顺序会直接导致 Logits 的非线性漂移

查看9道真题和解析

点赞评论收藏

分享

03-26 08:40

门头沟学院人工智能

腾讯具身智能一面-难死我了

攒攒人品！ 1.项目拷打2.vision-language 对齐是 joint embedding 的？，那做了哪种对齐？有做 hard negative mining 吗3.所有视角共享 encoder 吗？如何防止view collapse？4.semantic space是如何保证cross-modal consistency的5.用diffusion model做动作策略，是怎么建模action space的6.如果多个diffusion模型组合，用了 gating 机制还是 uncertainty-aware ensemble？那 uncertainty 是怎么量化的？有对比过 epistemic 和 aleatoric 吗？7.怎么防止action drift？有没有引入 consistency regularization或者temporal smoothness loss？8.在surgical robotics里policy failure cost 很高，是怎么做risk-aware training 的？有没有加入 CVaR loss10.模型泛化能力是靠数据多样性还是结构归纳偏置？能列出你设计中的 inductive bias 吗？对 unseen 手术任务怎么泛化11.surgical scene 变化很大，怎么办12.你说MAE 是做关键帧 reconstruction，那帧选择怎么做？具体打分逻辑是怎么样的13.有没有做 token-level saliency analysis？你怎么知道模型真的关注了 surgical tool 而不是 background？部署是在 ARM 上还是 X86？有没有模型并行？多线程和多进程各负责什么14.做多模态感知融合时，视觉、语言、触觉（如果有）延迟不同，怎么对齐的15.整个pipeline的E2E latency是多少？瓶颈在哪你说中间用了 LQR，你 gain matrix 是 constant 吗？有没有做 gain scheduling？基于什么指标调的16.控制系统稳定性你怎么保证？有没有做过 Lyapunov 函数证明17.做过 trajectory optimization 吗？是基于 collocation 还是 direct shooting18.假设你有个 policy 输出波动很大，你会考虑在 policy 层加高通滤波器还是在 loss 层加 penalty？为什么？19.diffusion policy 是连续动作空间，那你是建模 joint distribution 还是 marginal20.语言指令不是 deterministic 的，你们是直接用 language embedding 吗？有没有考虑language-conditioned latent variable model？

查看21道真题和解析

点赞评论收藏

分享

03-25 22:45

江南大学 golang

快手AI infra(偏推理)暑期留用实习，一面

1.拷打项目推理框架算子如何优化的如何构建Memory pool的如何对框架进行测试的？数据量有多少2.八股Vllm的page attention了解吗？chunk prefill是如何实现的？continous batching了解吗？3.leetcode二维数组每行有序，求第K小的元素（prioirty_queue，只写出来暴力）

查看7道真题和解析

点赞评论收藏

分享

牛客热帖

更多

正在热议

更多

# 26届春招投递记录 #

16573次浏览 117人参与

# Vibe Coding 会干掉初级岗位吗？ #

51549次浏览 327人参与

# 我的求职总结 #

486037次浏览 6867人参与

# 美团秋招笔试 #

218868次浏览 1196人参与

# 27届实习投递记录 #

84787次浏览 904人参与

# 实习生应该准时下班吗 #

360481次浏览 1762人参与

# 职场吐槽大会 #

361326次浏览 2308人参与

# 面试常问题系列 #

311058次浏览 4803人参与

# 面试中的破防瞬间 #

1268733次浏览 11141人参与

# 我是XXX，请攻击我最薄弱的地方 #

95851次浏览 642人参与

# 拼多多工作体验 #

62743次浏览 439人参与

# 机械人还在等华为开奖吗？ #

341996次浏览 1655人参与

# 华为工作体验 #

332306次浏览 1439人参与

# 牛油的搬砖plog #

207491次浏览 1336人参与

# 什么专业适合考公 #

73432次浏览 476人参与

# AI Coding实战技巧 #

32025次浏览 400人参与

# 实习工作，你找得还顺利吗？ #

597327次浏览 6758人参与

# 求职遇到的搞笑事件 #

192879次浏览 962人参与

# 运营每日一题 #

147632次浏览 981人参与

# 小厂实习有必要去吗 #

95145次浏览 452人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务