谷歌

收藏
互联网
500-999人
未融资
北京市
校招高薪榜WLB/965榜
一键网申
职位类型
全部
后端开发
客户端开发
运维/技术支持
人工智能/算法
产品
最新
热门
【BILIBILI 多模态视频 AI 产品面经拆解】三面全流程:从 Prompt 优化到产品大局观───📋 原文实录(三面实录)岗位: 多模态视频 AI 产品面试官背景: B站 AI 视频方向,团队负责产品 + 算法,无专职开发───Q1:Prompt 怎么优化,怎么写的?原题,B站一面。考察 Prompt Engineering 实战经验。Q2:音画不同步怎么办?原题,B站一面。视频 AI 处理中的经典工程问题。Q3:我们主要做各种 prompt 优化,旅游 vlog、赛车 vlog(感兴趣 TTS 吗?)原题,B站一面。面试官说明团队构成:主要是产品和算法,没有开发。Q4:为什么要做产品?原题,B站二面。经典动机题。Q5:音画不同步、偏移怎么办?有没有音频和视频拆开来的方法?原题,B站二面。Q2 的升级版,追问技术方案。Q6:有没有调研过其他的视频识别模型?有没有自己部署过模型,自测过?原题,B站二面。考察动手能力和技术深度。Q7:你在 AI 视频剪辑选择模型的时候,是怎么调研的?调研过哪些模型?有没有想过拆开来——视频和音频拆开来分析?原回答(极详细):调研思路: 需求分析先行 + 市场(商业 API 服务)与学术调研结合(GitHub、HuggingFace)+ 性能与成本评估 + 小范围 POC(概念验证)+ 技术与指标评估。调研过的具体模型:• 视频理解:Video-LLaMA、VideoMAE V2、Google Cloud Video Intelligence API、Google Gemini API• 音频理解:Dia-1.6B、F5-TTS、Fish Speech (Fish-TTS)、Zonos• 对话语音模型:Dia-1.6B — 专门为对话设计的开放式 TTS,为每个说话者生成逼真语音,包括情感和非语言声音• 语音克隆:F5-TTS(零样本,10 秒样本即可)、Fish Speech(多语言)、Zonos(20 万小时训练,擅长语音克隆)• 音乐生成器:ACE-Step — 新型开源音乐模型,极快速度和连贯性• ASR:OpenAI Whisper(68 万小时多语言音频)、NVIDIA Parakeet-v2(极快准确)• 音频-语言模型:Qwen2-Audio-7B、AudioFlamingo 2(长篇音频理解与推理)、Gemini-2.0-Flash• 说话人分离:pyannote、DiarizationLMQ8:视频题材方面,除了从内容的角度来考虑对视频进行解析和精进,还有哪些方面?原回答: 考察对视频的深入理解,包括四个维度:a. 视频结构化与元数据增强: 场景识别与分类(室内/室外/白天/夜晚)、事件检测(对话/打斗/演讲/产品展示)、主体识别与跟踪(人物/物体)、时间戳与标签自动化。b. 视听语言分析与美学评估: 镜头语言分析(推拉摇移/景别/构图)、色彩与光线分析(饱和度/亮度/对比度)、音频特征分析(BGM/人声/环境音/情绪识别/噪音检测)、情绪识别(面部表情+肢体语言+语音语调)。c. 用户偏好与个性化推荐: 用户行为数据分析、多维度推荐。d. 版权与合规性审核: 版权内容识别、敏感内容过滤。Q9:用 AI 做过什么产品?对 B站 AI 功能有哪些理解和建议?原回答:作为 C 端用户观察到:1. AI 视频总结小助手 — 时间戳对应内容2. 鬼畜区 AI 剪辑和弹幕氛围3. 评论区 @AI 根据描述或图片找到对应历史番剧但 C 端功能很难商业化变现。AI 现在更多是面向 B 端 UP 主提效的工具。关于 NotebookLM:好用的地方——视频拆得很细致,能像参考文献一样使用,能跟 chatbot 聊天了解长视频内容。播客生成功能亮眼。因为是 Google 自己的 YouTube,速度很快。───🔍 拆解拆解一:Prompt 优化考的不是技术,是「业务嗅觉」B站一面上来就问 Prompt 优化,第二问问音画不同步,第三面直接交底——团队做的是旅游 vlog、赛车 vlog 的 prompt 优化。这三问串起来看,面试官在做一个判断:你写 prompt 的时候,脑子里想的是 token 还是用户的 vlog?很多人答 Prompt 优化会陷入「怎么写 chain-of-thought」「few-shot 给几个例子」的技术路径。但 B 站的场景不一样——他们要的不是通用的 prompt 技巧,而是对特定视频类型(旅游、赛车)的理解如何转化为 prompt 设计。比如赛车 vlog:你需要让 AI 识别出发车瞬间、弯道超车、冲线、引擎声的变化——这些跟普通视频完全不同的语义单元。prompt 优化本质上是领域知识的编码。面试技巧: 如果只是说「我会写详细 prompt + 迭代」,你就掉了。应该先追问「你们现在最头疼的视频类型是什么?prompt 在哪个环节出的问题最多?」——把问题域先定清楚,再谈方案。拆解二:音画不同步问了两次——第一次问「知不知道」,第二次问「怎么解」Q2 第一次问是 check 你有没有这个意识。Q5 第二次问才是真正的技术考察。面试官的升维路线:「有这个问题」→「有没有音频和视频拆开来的方法?」→ 他在引导你去想架构层面的解耦。把音视频拆开处理,本质上是在问你对多模态 pipeline 的理解:• 音频流走 ASR + 说话人分离 → 产出带时间戳的文本• 视频流走场景检测 + 目标追踪 → 产出事件锚点• 两端在时间轴上对齐 → 解决偏移这个拆解的思路,比你直接说「我会调节偏移参数」高了不止一个 level。教训: 重复出现的问题不是面试官忘了,是他在换角度测你的深度。答浅了第一遍,第二遍必须升维。拆解三:候选人的模型调研回答,堪称教科书Q7 的回答是整个面经里最有价值的一段。候选人的模型调研框架:需求分析 → 市场调研+学术调研 → 性能成本评估 → POC → 技术指标评估而且他不是在背名字——他说出了模型之间的分工:• 视频理解用多模态大模型(Video-LLaMA, Gemini)• 音频用专门的 TTS/语音克隆(F5-TTS, Fish Speech)• ASR 用 Whisper/Parakeet• 说话人分离用 pyannote这展示了一个核心能力:知道什么任务用什么工具。 AI 产品经理不需要会写模型代码,但必须知道技术方案的边界——什么时候用大模型,什么时候用小模型的组合,什么时候调 API 就够。面试中可以用的话术模板: 「我的选型逻辑是——先定场景,再看 API 成熟度,然后开源自部署做差异化。比如 XX 场景,商业 API 的准确率已经够了,但 YY 场景需要微调开源模型,因为……」拆解四:Q8 的回答暴露了一个高阶产品思维面试官问:「除了内容角度,还有哪些方面?」候选人答了四个维度:结构化元数据、视听语言、用户偏好、版权合规。这个回答好在哪里?他跳出了「我帮你剪视频」的工具思维,进入了「我理解你的视频为什么火」的平台思维。
查看8道真题和解析
点赞 评论 收藏
分享
挺多人问我的,于是写个文章。先说面经和流程:我当时是宣讲会之后直接面试,当场给口头offer。他官网上显示是两轮面,但那边跟我说只要一面口头offer了就不用二面。面试内容也比较水,看看你简历是不是偏JAVA后端的,然后问会不会JAVA,会不会SQL啥的。还问有没有长期在日本发展想法和理由(我觉得说喜欢ACG也不是不行)。还有虽然不会日语也能拿offer,但是硬性要求N2水平相当的听说读写能力才能正式过去入职,否则接着在国内学。关于这个公司:这公司是个华人开的公司,在东证上市,员工1000多人(官网可查),也算是个大公司。中日员工1比1 ,也不至于会被日本人歧视。招人基本上java开发为主,进去之后让你干system engineer(全栈)。由于公司在国外,是不用签订三方协议的,只需要签个两方就行。关于工作地点:他公司在日本东京秋叶原(就在秋叶原车站旁边,谷歌地图可以看3D地图),但是这公司性质应该是劳务派遣,要去甲方公司驻场开发,甲方基本都在东京都市圈内(注意东京都市圈>东京都>东京),比如横滨、川崎等地(请自行看日本地图)。所以说有些人冲着秋叶原去的应该会失望了。关于薪资待遇:使用年薪制,是12薪,基本工资就是年薪/12。年终奖另算。他这个基本薪资比较奇怪,是已经包含了每月加班35h的费用(官网上也是这么写的),说的是你即使每个月加班不到35h也不会倒扣钱(这不是天上掉馅饼嘛,我觉得应该每个月都得加满35h)。加班超出35h部分他们有内部算法。待机费全额发(待机就是没有项目的时候),待机的时候一般就是去公司参加一些培训啥的。通勤费用报销(不包含新干线、飞机等特快交通),报销初次赴日机票。不包吃住,刚到日本会提供短期住宿(不到半年)。交日本社保,正常交。雇佣形式是正社员(自行百度)关于工作时间:东京时间9:00-18:00,含一个小时午休如果算上每月加班35h,那就按9-19.45算吧双休,红日子正常放假(自行百度),也有带薪假期。注意:日本是过元旦的,不过春节,所以如果想回国过春节一般是使用二月份的三连休+自己的带薪假。最后附上一张他们的宣传手册作为补充。声明一下:我不是给他打广告,待遇好不好自行判断。引流:
牛客97895948...:简单算了一下时薪,基本上是东京垫底水平
查看3道真题和解析
点赞 评论 收藏
分享
2024-11-02 15:40
已编辑
字节跳动_质量技术
先前突然收到某家大厂意向。中秋节前面完一直没有下文。一直以为自己排序要挂,没想到今天 OC。来写一个面经攒攒人品。个人情况:简单交代一下 bg,双非一本。今年境外申博无望,来找工作,只有国内某个 C9 老师的口头 offer,但是拒了,因为感觉老师非常 push,而且看不上我本科背景,一直对我 PUA,至于境外,由于没啥希望拿全额奖学金,加之父母双双失业,家里每个月 8000 左右房贷,所以感觉不可能出境读博了。平时编程 Python 居多,没有什么工程化项目经验,八月底开始学习 Java,两周时间部署上线了一个测评机项目。其中,前端 Vue3,后端包含两个部分,其一是使用SpringBoot 搭建用来解决常规 CRUD业务的,另一个是使用 Python fast API 搭建的,通过 RAG+Llama 来做一些问答的,模型针对编程任务做过微调),其实简历也就这个项目稍微能拿得出手。我在九月初正式开始投递简历,加入秋招,但是只有一家小公司实习,实习期间主要是做测开、数开(小公司是这样的,全干工程师),工作内容很杂,导致秋招期间会被 diss实习方向不太对口,屡屡受挫。- 校内奖项方面:两个国奖 + xcpc 水铜 + 大学数学竞赛工科国二 + 谷歌数据挖掘竞赛top30,其实这些奖项也就学校里面威风一下,感觉除了 xcpc之外,对找工作基本没有什么帮助,而且有些面试官甚至不知道 xcpc 是什么东西,亦或是知道,也跟我说 “这些经历很不错,但是未必能给公司带来商业价值”- 科研成果:六篇 SCI 一区论文(CCF-B),其中四篇主要作者(学生一作或共一,一篇学生三作),楼主投递的大部分都是 IEEE trans 听说,审稿巨慢,所以另有五篇在投 (其中在投的 AAAI 最近刚出一轮的结果,一篇挂掉,一篇过二审,许愿能圆我在毕业之前实现顶会梦想)总得来说,大部分公司基本简历挂,点名深信服、美团,笔试 AK 竟然没给面试,不过我猜是因为自己投递的太晚,没有 HC。虽然都是简历直接挂,但是美团校招这边直播答疑真的挺不错,直播答疑的是西电出来入职美团的小哥,直播答疑解决了我非常多找工作方面的疑惑,而且人看着挺帅,也是在这个时候,鄙人才对公司的招聘流程有那么一点了解,不得不说,自己之前真是过于学生思维了,天真的以为自己找工作不愁。技术面总共三轮:Round 1- 实习项目拷打 + 结合项目提问测试开发的场景题- 介绍token概念 + embedding 原理 + word2vec 原理- Transfomer QKV原理、 BatchNorm与 LayerNorm 区别- LLM 生成内容的效果评估 +  LLM文本摘要能理/推理能力/生成能力- LLM 自动化测评怎么写断言 + Reference-based 与 Ground truth-based 区别、Backbone 能力评估维度- 结合大模型应用问了 HTTP + RPC 原理- CI/CD 概念 + 模型训练完成之后如何自动化测试- Agent概念 + RAG原理 + SFT🤔思考与复盘话说我们做模型测试的也要知道这个吗?感觉这个更像研发同学会做的事情?Round2-Round3测开主要使用 Python 来写自动化测试脚本,因为·是面试提问大多都是 Python 相关的问题,又或许是因为我简历有一行提到自己熟悉 SSM 框架,面试官在问我 Python 八股的时候会结合 Java SSM 八股来问:- 函数闭包 + Python装饰器 + Py装饰器与Java AOP 异同- 日志级别 + 容灾 + redo/undo + 哪些级别的日志可以分块缓存写入- Python list/dict/set/tuple 内置数据结构的底层实现  + 对比cpp vector/map/set/pair有何不同- Python 反爬虫 + 如何绕开反爬虫的技术 + 如何使用爬虫抓取的数据来喂 AI 模型- MySql 基本用法 + Redis缓存击穿 + MySQL/Redis/MongoDB 三者优缺点/适用场景对比- 进程和线程的区别 + LRU/LFU缓存机制- 前后端联调 (通过OpenAPI+Swagger生成代码) + 项目使用哪些设计模式 + 如何解耦 ()- IQ 问题,如何估计深圳南山区有多少共享单车 (高中生物标志重捕法)- 正相关性是否说明两个东西具有因果性 (否)- 强化学习主要解决什么问题 + 如何借助用户反馈来做 RL + 单臂老虎机算法(这个不懂)- stack与queue有何应用  (括号匹配、递归模拟、双栈模拟表达式求职、单调队列维护滑动窗口最小值,单调栈维护最近更大元素,两次遍历维护最远更大元素,配合稀疏表维护最远更大元素,检查序列信号数据有没有峰或谷)🤔思考与复盘:- 面试官问我有没有 Stack/Queue 算法题之外的应用,我介绍了 Vue.js/JavaScript 事件驱动模型- 其实我并不懂 Redis 缓存击穿,给问到的时候有点慌,但我在哔站看到up xhyovo 说是不懂也没关系,重点在于对于业务的理解而不是对技术栈的堆砌,所以我坦诚的交待了自己没有深入研究这个东西,对于 Redis 仅仅停留在知道语法,借助 GPT 能做项目的程度,因为平时的项目用户量不大,如果能用 MySQL 解决,其实没必要硬整 Redis,紧接着,马上转移话题,换到自己熟悉的领域Round4HRBP 面试,本以为是比较轻松的一轮面试,没想到问题非常刁钻。- 问我如何看待自己是双非学校,我说我很自豪,我们县城高中全校能上一本的只有两个人结果,hr似乎有点无语- 问我相较于多段实习的 985/211 同学来说,自己有何优势? (科研产出多,大部分的硕博科研业绩应该都比不过我)- 问我职业规划 + 质问为什么实习经历为什么不垂直等等(没懂什么是垂直,后面 HR 说是对口的意思)- 质问为什么之前投递了前端等其它毫不相关的岗位(因为我也学过,平时网接单赚钱,前后端+深度学习算法都做)- 为什么能接单挣钱不自己单干 (因为收入不稳定呀)- 问我有没有什么爱好 + 问我有没有对象 + 问我如何看待加班。🤔总结:整体感觉压力不小,问题都不难,但是坏在量大,为什么我看大佬分享的面经都是聊天呢,靠。三轮面试的算法题也不难,手撕基本都是 LeetCode 原题:- KMP+ 判断链表是否有环(本题只要口述思路)- 无重复字符的最长子串 + 接雨水 + 编辑距离(口述思路)- LRU🤔思考与复盘:我在网上看大家分享,手撕都是一道题,但我好像写得太快,面试官质疑我背题,所以在写三面手撕 LRU 环节的时候,我故意写了五分钟左右。样例都是面试官提供的,不像力扣那么全面。各轮面试的反问环节:能否让我提前到岗实习、会不会差额录用、新手保护期怎么培训总结:秋招第一个offer虽说是一个测开offer,但是也算一个比较好的开始,至少自己投入的时间得到了些许肯定。刚开始不敢投大厂,投递了一堆手机厂结果给我挂麻了,短暂的喘息之后,鼠鼠仍是不敢躺平,早就听说了大厂也有毁意向的先例,所以其它在面试也要继续推进才行,希望后续商汤、虾皮、华为都可以顺利 (11-02更新: 商汤、虾皮已挂,华为技术面通过,主管面延期,尚未开始),总之,希望大家能在十月的尾巴拿到自己心仪的 offer。关于学历的题外话:鼠鼠我是小镇做题家,小地方长大,大学之前从来没听过 985/211,因为县里的高中没有人能考上。大二才第一次听说 985/211这个概念,找工作之后听说了双非歧视这种说法,明明是高中的时候都说那是一本,没想到现在变成了“双非”, 心里怪不舒服的,不过,有些面试官非常热心的告诉我——大部分时候卡学历是因为简历太多看不过来,如果能有比较突出的项目,或是科研成果,仍然是有机会脱颖而出的。
专升本成功上岸的鸭:Redis缓存击穿(给问到的时候有点慌,但我在哔站看到up xhyovo 说是不懂也没关系,重点在于对于业务的理解而不是对技术栈的堆砌,我便说自己不了解这个,对于 Redis 仅仅停留在知道语法,借助 GPT 能做项目的程度,因为平时的项目用户量不大,只需要用到 MySQL,没必要硬整 Redis) 本人额外说一下:对是对的,但是被问到也不能直白的说不了解,你肯定要有其他方面撑起来话题往那边去引,这样才弱化这种背的问题
查看6道真题和解析
点赞 评论 收藏
分享
2024-09-18 16:54
山东大学 前端工程师
查看12道真题和解析
点赞 评论 收藏
分享
分享我的面试经验
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客网在线编程
牛客网题解
牛客企业服务