BILIBILI 多模态视频 AI 产品面经拆解

【BILIBILI 多模态视频 AI 产品面经拆解】三面全流程:从 Prompt 优化到产品大局观

───

📋 原文实录(三面实录)

岗位: 多模态视频 AI 产品
面试官背景: B站 AI 视频方向,团队负责产品 + 算法,无专职开发

───

Q1:Prompt 怎么优化,怎么写的?

原题,B站一面。考察 Prompt Engineering 实战经验。

Q2:音画不同步怎么办?

原题,B站一面。视频 AI 处理中的经典工程问题。

Q3:我们主要做各种 prompt 优化,旅游 vlog、赛车 vlog(感兴趣 TTS 吗?)

原题,B站一面。面试官说明团队构成:主要是产品和算法,没有开发。

Q4:为什么要做产品?

原题,B站二面。经典动机题。

Q5:音画不同步、偏移怎么办?有没有音频和视频拆开来的方法?

原题,B站二面。Q2 的升级版,追问技术方案。

Q6:有没有调研过其他的视频识别模型?有没有自己部署过模型,自测过?

原题,B站二面。考察动手能力和技术深度。

Q7:你在 AI 视频剪辑选择模型的时候,是怎么调研的?调研过哪些模型?有没有想过拆开来——视频和音频拆开来分析?

原回答(极详细):

调研思路: 需求分析先行 + 市场(商业 API 服务)与学术调研结合(GitHub、HuggingFace)+ 性能与成本评估 + 小范围 POC(概念验证)+ 技术与指标评估。

调研过的具体模型:

• 视频理解:Video-LLaMA、VideoMAE V2、Google Cloud Video Intelligence API、Google Gemini API
• 音频理解:Dia-1.6B、F5-TTS、Fish Speech (Fish-TTS)、Zonos
• 对话语音模型:Dia-1.6B — 专门为对话设计的开放式 TTS,为每个说话者生成逼真语音,包括情感和非语言声音
• 语音克隆:F5-TTS(零样本,10 秒样本即可)、Fish Speech(多语言)、Zonos(20 万小时训练,擅长语音克隆)
• 音乐生成器:ACE-Step — 新型开源音乐模型,极快速度和连贯性
• ASR:OpenAI Whisper(68 万小时多语言音频)、NVIDIA Parakeet-v2(极快准确)
• 音频-语言模型:Qwen2-Audio-7B、AudioFlamingo 2(长篇音频理解与推理)、Gemini-2.0-Flash
• 说话人分离:pyannote、DiarizationLM

Q8:视频题材方面,除了从内容的角度来考虑对视频进行解析和精进,还有哪些方面?

原回答: 考察对视频的深入理解,包括四个维度:

a. 视频结构化与元数据增强: 场景识别与分类(室内/室外/白天/夜晚)、事件检测(对话/打斗/演讲/产品展示)、主体识别与跟踪(人物/物体)、时间戳与标签自动化。

b. 视听语言分析与美学评估: 镜头语言分析(推拉摇移/景别/构图)、色彩与光线分析(饱和度/亮度/对比度)、音频特征分析(BGM/人声/环境音/情绪识别/噪音检测)、情绪识别(面部表情+肢体语言+语音语调)。

c. 用户偏好与个性化推荐: 用户行为数据分析、多维度推荐。

d. 版权与合规性审核: 版权内容识别、敏感内容过滤。

Q9:用 AI 做过什么产品?对 B站 AI 功能有哪些理解和建议?

原回答:

作为 C 端用户观察到:

1. AI 视频总结小助手 — 时间戳对应内容
2. 鬼畜区 AI 剪辑和弹幕氛围
3. 评论区 @AI 根据描述或图片找到对应历史番剧

但 C 端功能很难商业化变现。AI 现在更多是面向 B 端 UP 主提效的工具。

关于 NotebookLM:好用的地方——视频拆得很细致,能像参考文献一样使用,能跟 chatbot 聊天了解长视频内容。播客生成功能亮眼。因为是 Google 自己的 YouTube,速度很快。

───

🔍 拆解

拆解一:Prompt 优化考的不是技术,是「业务嗅觉」

B站一面上来就问 Prompt 优化,第二问问音画不同步,第三面直接交底——团队做的是旅游 vlog、赛车 vlog 的 prompt 优化。

这三问串起来看,面试官在做一个判断:你写 prompt 的时候,脑子里想的是 token 还是用户的 vlog?

很多人答 Prompt 优化会陷入「怎么写 chain-of-thought」「few-shot 给几个例子」的技术路径。但 B 站的场景不一样——他们要的不是通用的 prompt 技巧,而是对特定视频类型(旅游、赛车)的理解如何转化为 prompt 设计。

比如赛车 vlog:你需要让 AI 识别出发车瞬间、弯道超车、冲线、引擎声的变化——这些跟普通视频完全不同的语义单元。prompt 优化本质上是领域知识的编码。

面试技巧: 如果只是说「我会写详细 prompt + 迭代」,你就掉了。应该先追问「你们现在最头疼的视频类型是什么?prompt 在哪个环节出的问题最多?」——把问题域先定清楚,再谈方案。

拆解二:音画不同步问了两次——第一次问「知不知道」,第二次问「怎么解」

Q2 第一次问是 check 你有没有这个意识。Q5 第二次问才是真正的技术考察。

面试官的升维路线:「有这个问题」→「有没有音频和视频拆开来的方法?」→ 他在引导你去想架构层面的解耦。

把音视频拆开处理,本质上是在问你对多模态 pipeline 的理解:

• 音频流走 ASR + 说话人分离 → 产出带时间戳的文本
• 视频流走场景检测 + 目标追踪 → 产出事件锚点
• 两端在时间轴上对齐 → 解决偏移

这个拆解的思路,比你直接说「我会调节偏移参数」高了不止一个 level。

教训: 重复出现的问题不是面试官忘了,是他在换角度测你的深度。答浅了第一遍,第二遍必须升维。

拆解三:候选人的模型调研回答,堪称教科书

Q7 的回答是整个面经里最有价值的一段。候选人的模型调研框架:

需求分析 → 市场调研+学术调研 → 性能成本评估 → POC → 技术指标评估

而且他不是在背名字——他说出了模型之间的分工:

• 视频理解用多模态大模型(Video-LLaMA, Gemini)
• 音频用专门的 TTS/语音克隆(F5-TTS, Fish Speech)
• ASR 用 Whisper/Parakeet
• 说话人分离用 pyannote

这展示了一个核心能力:知道什么任务用什么工具。 AI 产品经理不需要会写模型代码,但必须知道技术方案的边界——什么时候用大模型,什么时候用小模型的组合,什么时候调 API 就够。

面试中可以用的话术模板: 「我的选型逻辑是——先定场景,再看 API 成熟度,然后开源自部署做差异化。比如 XX 场景,商业 API 的准确率已经够了,但 YY 场景需要微调开源模型,因为……」

拆解四:Q8 的回答暴露了一个高阶产品思维

面试官问:「除了内容角度,还有哪些方面?」

候选人答了四个维度:结构化元数据、视听语言、用户偏好、版权合规。

这个回答好在哪里?他跳出了「我帮你剪视频」的工具思维,进入了「我理解你的视频为什么火」的平台思维。
全部评论
Ai产品面经咨询找:SamSun_AI25
点赞 回复 分享
发布于 05-22 16:56 上海

相关推荐

原文(来源:牛客网,作者:Arancia_Arancione,门头沟学院):二面 业务面 40min1. 自我介绍2. 本硕专业都和AI没啥关系,为啥想当AI产品经理?3. 谈一下对AI产品经理这个岗位的理解,以及它对应的职责4. 你觉得AI产品经理需要具备哪些技能5. 谈下对人工智能未来发展趋势的看法6. 你有多段实习经历,你觉得对你来说成长最大或者收获最大的是哪段?7. 介绍一下在小米的实习8. 你说到会通过策略调整来提升大模型,是什么策略?怎么调整的?展开讲下9. 小米这段的大模型数据评测10. 评测的核心指标是什么?怎么得到的?11. 这段实习中,你遇到的最大的挑战or困难是啥?怎么解决的?12. 再讲一下Minimax的这段实习13. 讲下数据标注的工作14. prompt方面做了什么具体的内容?15. 谈一下深度学习这块的原理,例如卷积神经网络、强化学习等,原理+应用场景16. 有监督学习和无监督学习的区别是啥?17. 假设我们现在有一个需求,需要找一个合适的模型来进行解决。现在市面上有很多模型,我们要怎么去选择?或者说怎么验证某个模型就是能够达到我们的预期的?市面上常见的大模型有哪些───1. 17道题40分钟——理想的「剥洋葱」追问战术理想二面问题数是百度、vivo的3-4倍,时间相同。面试策略是「快速下钻,触及边界」——每题约2分钟窗口,立刻追问下一层。靠背诵的答案撑不过三轮追问。面试官要的不是完美答案,是认知边界在哪。2. Q8-Q10连续追问链暴露了面试的真实目的Q8「什么策略」→ Q9「评测怎么做」→ Q10「核心指标是什么、怎么得到」。从方法论→实操→量化的下钻路径。如果实习经历真实深度参与,Q10能直接报出指标和获取方式;如果是包装的,到Q9就开始含糊。面试官用这个链精确测量实习深度。3. Q15「谈一下深度学习原理」——AI PM面试的技术边界测试考的不是有没有ML学位,是能不能用产品经理的语言讲清楚技术原理。合格回答用类比:CNN像滑动窗口扫描图片,强化学习像训狗。不合格要么背教科书定义(不懂跟非技术人员沟通),要么完全答不上来(跟算法工程师沟通成本极高)。4. Q17「如何验证模型达到预期」——区分AI PM和传统PM的终极问题传统PM验证「功能有没有按PRD做出来」;AI PM验证「模型在不完全可控的情况下能不能稳定输出期望结果」。高分框架:验证维度(准确率/召回率/延迟/成本)→ 评测集(正常+边界+对抗Case)→ A/B方案 → 上线标准。
查看17道真题和解析
点赞 评论 收藏
分享
📋 原文实录(一面 + 二面)岗位: AI 产品经理 | 面试官背景: Boss直聘 AI 面试产品线───Q1:AI 面试产品的现状与差距面试官介绍:国内目前没有比我们做得更好的 AI 面试产品,但仍处于灰度验证阶段。与国外产品相比,差距主要体现在语音交互的自然度和 AI 面试官的专业程度上。当前很多所谓「AI 面试」产品(如德贤、海纳)更像是标准化考试(固定题目、收集答案),而非真实面试场景的还原。Q2:AI 面试的核心方向聚焦两个方向——• 能力方向:高度还原真实面试场景;提升 AI 面试官的出题能力、评价能力、技术稳定性。• 业务价值方向:To C 帮助求职者押题、锻炼技能、缓解紧张;To B 更高效、低成本、定制化地收集候选人信息,实现人岗精准匹配。Q3:AI 面试的天花板在哪?AI 能否完全决定录用?面试官回应:如果仅把 AI 面试当作筛选节点,确实有天花板。但若视为人才匹配工具,天花板极高——即使某人不适合 PM 岗,AI 可基于其特质推荐律师岗位并直接对接律所。核心不是「刷人」,是发现人的潜力。真正的瓶颈可能不是技术,而是信任问题——企业是否愿意让 AI 做最终录用决策。Q4:对 AI 安全有何理解?AI 红队具体如何开展工作?原题。考察模型攻防、安全性评估标准及红队测试流程。Q5:如何理解「幻觉」?上下文工程如何处理幻觉?原题。考察 RAG、Prompt 约束等技术手段,以及实际业务场景中的防幻觉策略。Q6:Agent 运行中,ReAct 模式如何解决无限循环?原题。与记忆机制、工具调用准确率及信息利用率有关。受限于上下文窗口,需研究如何检测并跳出循环。Q7:App 消亡论与硬件终端面试官讨论:App 从「给人看」到「给 Agent 用」。深层:安全与信任?商业模式重构(注意力经济→算法贿赂)?终端演变:AI 眼镜更轻巧更直接,但视线阻碍与侵入性。必须亲自买 AI 眼镜体验才能形成有说服力的判断。Q8:面试官给的认知检验标准• 卡壳即不懂——说不清楚 = 认知不清晰。能用两句简单话把复杂事说明白,才叫真懂。
查看7道真题和解析
点赞 评论 收藏
分享
评论
3
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务