字节的机审策略与工具运营一面

岗位:字节跳动 机审策略与工具运营

面试时长:约30分钟

一、面试总体情况:

本次面试围绕候选人的大模型应用经验展开,面试官重点考察了RAG知识库设计、Agent工程落地、模型评估、内容安全治理等方向的能力。面试官所在团队聚焦今日头条平台内容风险治理,业务场景与候选人过往经历(电商客服智能化)存在一定差异,因此面试中涉及较多跨场景的迁移与延伸性考察。

二、问题

1、RAG知识的来源、清洗、打标、上线、清退的完整运维路径是什么?

2、知识库中过期/错误内容如何触发清退?维护标准是什么?

3、业务链路上线后主要看哪些衡量指标?

4、置信度与意图识别如何结合使用?如何分级路由?

5、大模型幻觉问题有哪些常见表现?你是怎么解决的?

6、多模态模型误召回时,优化方向有哪几类?

7、你对内容安全治理业务的理解是什么?大模型能在哪些环节发挥作用?

8、突发高危内容(如快手事件),如何借助AI应急处置?模型有哪些短板?

9、COT、CoD、微调等技术手段,你有了解或应用过吗?

10、auto PE工具你用过哪些?结构化Prompt设计的方法论是什么?

11、你认为大模型目前还有哪些亟待解决的问题?

三、面试复盘

Q1:多模态模型误召回时,优化方向有哪几类?

回答思路:有溯源、有案例、有迭代路径

一、总:定位问题,需要分层

误召回的问题不能笼统说'模型问题',要先定位失效在哪一层,不同层的优化方向完全不同。我们在实际运营中总结下来,失效原因主要集中在三类

二、输入质量导致的失效

(1)问题:用户在千牛发来的图片很多是手机随手拍的,模糊、逆光、角度倾斜,多模态模型在这类图片上的理解准确率会大幅下降。我们遇到过一个典型case,用户发了一张破损商品的照片,但拍摄角度问题导致破损部位在图片里几乎看不清,模型把它描述成'商品包装轻微褶皱',触发的是普通退货流程而不是破损赔偿流程,直接影响了用户的赔偿金额。

(2)解决:针对这类问题我们加了一个前置质量过滤层,直接用图像处理库在代码层面做计算,速度快、成本低

三、图文语义不一致导致的失效

(1)问题:第二类是图文语义不一致。用户发的图片和文字描述表达的不是同一个意思,模型不知道以哪个为准。比如用户发了一张商品图片,文字说'这个不对',模型把这条消息理解成商品外观问题,但实际上用户是收到了错误的款式,图片是他想要的那个,文字说的是收到的不对

(2)解决:图像理解层加一个语义一致性校验——让模型先分别理解图片和文字,再判断两者是否表达同一个意图,不一致时输出一个追问而不是强行融合理解,把歧义在输入层消解掉。

四、OCR识别错误导致的失效

(1)问题:在用户上传订单截图、物流单、发票这类场景里高发。截图里的关键数字比如订单号、金额识别出错,后续用这个错误的信息去OMS查询当然查不到,整条链路就断了

(2)解决:对OCR结果做置信度校验,数字类信息识别置信度低于阈值时不直接用,而是回调OMS用其他字段交叉验证,比如用收货人姓名加电话号码来匹配订单,而不是强依赖OCR识别出来的订单号

五、总:怎么持续优化

我们还建了一个多模态评估数据集。把历史上所有图片相关的误召回会话按失效类型打标——输入质量问题、图文不一致、OCR错误、其他——定期跑一次评估,看每类失效的占比变化。哪类占比上升就说明哪个方向出了新问题,把评估结果直接对应到优化优先级,不靠感觉排,靠数据排。

Q2:你对内容安全治理业务的理解是什么?大模型能在哪些环节发挥作用?

一、本质:内容安全治理不是单纯的违规内容过滤,本质是一个动态博弈

(1)违规内容的生产方式在持续进化——从明文违规到谐音字规避、从图文到短视频、从单条内容到跨账号协同传播,每一次平台收紧规则,违规方就找新的绕过方式。治理必须能持续感知新的违规模式,而不是靠一套固定规则打天下。

(2)同时治理是一个双向错误代价不对等的问题。漏放违规内容的代价是平台声誉和法律风险,误杀正常内容的代价是创作者流失和平台生态损伤。两类错误的代价不一样,决定了不同类型的内容需要设置不同的审核阈值,不能用一套标准通杀。

二、全局链路

链路:事前预防 → 实时拦截 → 事后复核 → 申诉处理 → 规则迭代

三、发挥作用

第一个环节:实时拦截里的语义理解

(1)背景:传统审核靠关键词匹配和分类模型,能处理明文违规,但处理不了语义变体

(2)运用:大模型在这里的价值是上下文语义理解,能判断一段内容在当前语境下的实际表达意图,而不是只看字面。尤其是对隐晦表达、谐音规避、暗语系统的识别,大模型的准确率远高于传统分类模型。

(3)注意:实际的设计是分级处理——规则引擎和轻量分类模型先过一遍,明确违规的直接拦截,明确正常的直接放行,只有灰度内容才调用大模型做深度语义判断,把大模型的调用量控制在总量的10%~20%。

第二个环节:事后复核里的辅助判断

(1)背景:人工审核员每天要处理海量内容,认知负荷极高,容易疲劳导致判断失误。

(2)运用:大模型在这里的价值是生成审核辅助报告——在人工审核员看内容之前,大模型先输出一份结构化分析,审核员不是从零开始判断,而是在大模型的辅助结论基础上做确认或推翻。

第三个环节:申诉处理里的理由生成

(1)背景:传统审核系统给创作者的申诉回复通常是模板化的"您的内容违反了XX条款",创作者不知道具体哪里违规、怎么修改,申诉体验极差,同时申诉处理需要大量人工介入。

(2)运用:大模型在这里的价值是生成个性化的申诉回复——针对这条具体内容,说清楚哪个段落、哪种表达触发了哪条规则,如果可以修改应该怎么改。这个回复不是模板填充,是基于内容本身生成的,创作者理解成本大幅降低,同时申诉处理的人工介入量也随之下降。

第四个环节:规则迭代里的新型违规发现

(1)背景:违规内容在持续进化,新型违规模式往往在大量出现之前只有少量样本,传统分类模型因为样本不足无法训练出有效的检测器。

(2)运用:大模型在这里的价值是少样本新型违规识别——给大模型5~10个新型违规样本,让它归纳这类内容的共同特征和表达模式,生成初步的识别规则,运营同学审核确认之后快速上线,不需要等到积累几千条样本再训练分类模型。这把新型违规的响应周期从几周压缩到几天。

第五个环节:事前预防里的创作引导

(1)背景:在内容发布前给创作者实时反馈,指出可能触发审核的表达方式并给出修改建议,把违规内容在产生阶段就消减掉,而不是等发布之后再拦截。

(2)运用:大模型在这里扮演的是实时内容顾问的角色,不是判官而是助手,对平台生态的长期价值高于单纯的事后拦截。

Q3:突发高危内容(如快手事件),如何借助AI应急处置?模型有哪些短板?

一、触发检测 (agent主动而不是被动)

监控三个维度:同类内容在短时间内的发布量突增、特定关键词的出现频率环比异常、用户举报量在时间窗口内超过阈值。三个维度任意一个触发预设阈值,自动进入应急模式,不需要人工发现再上报。

二、快速打标

事件识别之后,需要对涉及内容快速打上风险标签,区分核心违规内容、变体内容、相关但不违规的内容

(1)高置信度走全自动是因为这类内容的误杀风险极低,响应速度优先。

(2)中置信度用限流而不是下架,是一个折中方案——既降低了违规内容的传播速度,又给人工审核留了时间窗口,避免大规模误杀。

(3)低置信度不处置,因为这类内容的违规判断本身不确定,贸然下架的申诉成本更高。

三、人工审核分级

进入人工队列的内容不是平铺排队,按优先级分三档

(1)P0是传播量已经超过阈值的内容,10分钟内必须处理,专项审核组接管。

(2)P1是置信度中等但传播速度快的内容,30分钟内处理。

(3)P2是低置信度的监控内容,按正常节奏处理。

四、规则沉淀

事件里人工审核员推翻大模型判断的case单独收集起来,分析推翻原因,形成新的标注数据进入微调集

五、大模型的短板

第一个短板:实时性不足

大模型推理有延迟,单条内容的判断时间在秒级,突发事件期间并发量可能是平时的10~20倍,大模型扛不住全量调用。所以第一道过滤必须是规则引擎和轻量模型,大模型只处理灰度内容,控制调用量。

第二个短板:新型违规的盲区

快手这类事件往往伴随新型的传播方式和表达形式,大模型预训练知识截止之后出现的新型违规词汇和暗语系统,模型识别能力很弱。这是为什么应急阶段必须有人工介入——人工审核员能感知到"这个表达方式很奇怪",但说不清楚为什么,模型反而感知不到。

第三个短板:跨模态协同传播识别能力弱

高危事件往往不是单一内容形态,而是图文+短视频+评论协同传播。大模型对单条内容的判断能力强,但对跨内容、跨账号的协同传播模式识别能力有限,需要图谱分析和关联挖掘来补充。

第四个短板:一致性问题

同样一段内容,大模型在高并发下多次推理可能得到不同的置信度,在需要高度一致性的审核场景里这是一个风险。所以大模型的输出必须经过后处理的校准层,不能直接用原始输出做决策。

Q4:COT、CoD、微调等技术手段,你有了解或应用过吗?

COT的本质是强制模型在给出结论之前先输出推理步骤,利用的是模型对自身生成过程的元认知能力——把中间推理显式化之后,模型更不容易跳步出错。

在千牛客服项目里直接用过。问题回复专家的prompt里有一段推理约束:"请先判断用户诉求属于哪类intent,再结合知识库内容给出处理建议,最后输出结论。"这就是COT的实际应用——不允许模型直接输出intent和reply_text,必须先走推理步骤。

COT的局限是增加了token消耗,推理步骤本身也占context,在高并发场景下成本上升明显。所以我们的做法是只在回复专家这一层用COT,问题优化专家那一层不用,控制整体token用量。

CoD是COT的压缩版,核心思路是不要求模型输出完整的推理过程,而是输出关键的推理节点,用草稿式的简短标记代替完整的推理句子。

如果千牛项目当时知道CoD,回复专家这一层应该用CoD而不是完整COT,在保住推理质量的前提下把响应时长再压一压。这是一个后续优化方向。

Q5:auto PE工具你用过哪些?结构化Prompt设计的方法论是什么?

第一类:平台内置的prompt调试工具

Dify和扣子都有内置的prompt调试环境,可以直接在平台里对同一个输入跑多个prompt变体,对比输出结果。在千牛客服项目里用Dify做问题优化专家的prompt迭代,核心用法是把10条典型的歧义会话作为测试用例,每次改完prompt就跑一遍,看输出的rewritten_query质量有没有提升,快速验证prompt改动的效果。

第二类:Google Notebook LM

把业务文档喂给它,让它归纳prompt所需的业务知识

把SOP文档、历史工单、产品说明上传进去,问它"这些文档里影响退货处理结论的关键条件有哪些",它会从文档里提取结构化的条件变量,直接作为prompt里关键词体系和角色锚定的素材。

比你自己从头读文档归纳快很多,而且引用来源可追溯,每个结论都能定位到原始文档的哪一页,减少归纳偏差。

#牛客AI配图神器#

#经验##字节##面经##开工第一帖#
全部评论
请问这是实习还是社招
点赞 回复 分享
发布于 04-09 13:01 陕西

相关推荐

一、面试问题A. 项目经历与业务理解1. 实习1. 先介绍一下你的这段实习经历。2. 听起来你的工作主要集中在数据/样本构建上,是吗?3. 你这里写了 VQG 和 VQA 一致性评估,这里的“一致性评估”是什么意思?4. 所以你的意思是,让大模型先生成问题,再生成答案,然后看问题和答案是否对得上,是吗?5. 所以最后是不是回答不一致的样本,就说明它比较难?6. 这个项目过程中,你有做过哪些模型方面的工作?2. LLM-as-a-Judge 项目7. 研究生阶段你还有一个 LLM-as-a-Judge 的项目,能大概介绍一下吗?8. 你最后这个总分好不好,是通过一个下游任务来验证的吗?9. 如果我理解得对,就是你打分之后选 Top 20% 的数据去微调,再和随机选 20% 做对比,是这个意思吗?10. 这个事情听起来很像样本选择,甚至有点像强化学习,你有从这个方向考虑过吗?B. 强化学习基础11. 你对强化学习了解吗?系统地学习过一些强化学习的方法吗?12. on-policy 和 off-policy 分别是什么意思?13. importance sampling 是什么?14. DPO 和 PPO 是什么关系?它们有什么区别?C. LoRA / 参数高效微调(这里因为我简历写了一个LoRA所以面试官追着来杀)15. 你在项目里用 BLIP-2 做了 LoRA 微调。LoRA 为什么可以省显存?16. 你虽然加的是一个低秩小矩阵,但不管多小,参数总归是增加了。那为什么在参数增加的情况下,LoRA 反而还能省显存?17. 推理的时候呢?推理阶段用 LoRA 和不用 LoRA,有什么区别?效率上有什么影响?D. 多模态模型 / VLM1. BLIP-2 相关(因为LLM-as-a-Judge里面提到了这个细节)18. 你为什么选择 BLIP-2 做微调?选择 BLIP-2 的考虑是什么?19. BLIP-2 相对于 BLIP 有什么改进?2. VLM 路线理解20. 你对 VLM 这条线还有哪些了解?之前有关注过哪些相关工作?21. Qwen VL 了解吗?22. 相比于 LLaVA,Qwen-VL 有哪些不一样的地方?你有没有了解过?E. Transformer / 大模型基础23. Position Encoding 是什么?有哪些分类?24. 旋转位置编码、绝对位置编码,是直接加到 token embedding 上的吗?25. 相对位置编码呢?比如 RPE 这种,它一般是加到哪里?26. decoder 里面 causal attention 是怎么实现的?F. 手撕:最长不重复子串二、反问1. 部门目前主要负责的业务内容是什么?团队主要在做哪些事情?部门整体是做风控的,负责平台上的各类风险问题。大的方向包括内容风险,比如违规图片、违规文本;也包括用户层面的欺诈、作弊等风险。具体到他们团队,主要做几类事情:一类是机器作弊流量和攻击检测,比如爬虫、自动化攻击、人工获取数据等;一类是人机验证相关能力,比如真人检测、验证码等还有一类是识别图片、文本里隐藏得很深的网址,并判断这些网址的风险,这些网址往往会把用户引到站外赌博、色情等高风险网站。2. 这个岗位平时更 focus 哪些算法领域?更希望候选人掌握哪些知识、算法方向和工程经验?首先还是需要有大模型基础,对大模型的一些基础概念和原理要比较了解。其次,像他们做隐藏网址识别这类任务,如果输入是图片、图文、视频,本质上就是一个 VLM 问题,所以也会希望候选人具备多模态/VLM 方面的理解。还有一块是 Agent,因为他们现在也在探索用 Agent 节省人力、提高效果,所以这方面也有需求。至于为什么会追问 RL,是因为 Agent 往底层看,算法基础还是会和 RL 有关系,所以他们对这方面也是有期待的。3. 这个部门属于哪个业务?是抖音还是 TikTok 相关?会和哪些部门合作?这个部门属于 Data,可以理解成字节的中台部门。风控相关的很多需求会收在他们这里,所以也可以把他们理解成风控中台。抖音和 TikTok 两边的风控中台需求都会提到他们这里,也就是说他们同时支持抖音和 TikTok 这两边的业务。4. 这份实习是日常还是暑期?HC 情况大概怎么样?转正 HC 的情况面试官自己也不太确定,目前应该还没有完全定下来,这块后续可以再和 HR 沟通。实习本身要求至少三个月,团队会更希望实习时间长一点,因为前期熟悉业务和环境本身就要花不少时间,太短的话不利于真正做出产出。5. 团队里做的内容主要是业务算法 / pipeline 搭建,还是也会有研究课题、论文产出的可能?整体还是更偏业务,不太支持以论文为导向的事情。但也不是说让实习生直接上来扛复杂业务指标。通常的做法是从复杂业务问题里,抽取出一个相对独立、偏技术、带一些探索性的点,让同学在这个方向上做出产出。所以更偏“从业务中抽技术问题来做”,而不是纯学术研究。6. 为什么字节有些组会支持论文或者研究产出,但你们组看起来不太支持?是岗位性质不一样吗?这个团队是要为业务结果负责的,所以判断标准首先是对业务有没有帮助。面试官比较直接地表达了他的看法:很多论文并不能真正解决业务问题,甚至会被视为“水论文”。他们并不是完全排斥研究,而是强调如果某个具体业务问题确实值得研究、也确实需要前沿技术去解决,那么可以研究;但最终目标仍然应该是服务业务、能落到线上,而不是为了论文本身去做。7. 这轮面试之后,我大概多久能知道结果?正常情况下大概三天之内会有结果,但最终还是要看后续 HR 推流程的节奏陪一张昨天下午在教室拍的一角夕阳
点赞 评论 收藏
分享
评论
11
27
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务