昨天 21:01 已编辑河北农业大学产品经理发布于浙江

关注

字节的机审策略与工具运营一面

岗位：字节跳动机审策略与工具运营

面试时长：约30分钟

一、面试总体情况：

本次面试围绕候选人的大模型应用经验展开，面试官重点考察了RAG知识库设计、Agent工程落地、模型评估、内容安全治理等方向的能力。面试官所在团队聚焦今日头条平台内容风险治理，业务场景与候选人过往经历（电商客服智能化）存在一定差异，因此面试中涉及较多跨场景的迁移与延伸性考察。

二、问题

1、RAG知识的来源、清洗、打标、上线、清退的完整运维路径是什么？

2、知识库中过期/错误内容如何触发清退？维护标准是什么？

3、业务链路上线后主要看哪些衡量指标？

4、置信度与意图识别如何结合使用？如何分级路由？

5、大模型幻觉问题有哪些常见表现？你是怎么解决的？

6、多模态模型误召回时，优化方向有哪几类？

7、你对内容安全治理业务的理解是什么？大模型能在哪些环节发挥作用？

8、突发高危内容（如快手事件），如何借助AI应急处置？模型有哪些短板？

9、COT、CoD、微调等技术手段，你有了解或应用过吗？

10、auto PE工具你用过哪些？结构化Prompt设计的方法论是什么？

11、你认为大模型目前还有哪些亟待解决的问题？

三、面试复盘

Q1:多模态模型误召回时，优化方向有哪几类？

回答思路：有溯源、有案例、有迭代路径

一、总：定位问题，需要分层

误召回的问题不能笼统说'模型问题'，要先定位失效在哪一层，不同层的优化方向完全不同。我们在实际运营中总结下来，失效原因主要集中在三类

二、输入质量导致的失效

（1）问题：用户在千牛发来的图片很多是手机随手拍的，模糊、逆光、角度倾斜，多模态模型在这类图片上的理解准确率会大幅下降。我们遇到过一个典型case，用户发了一张破损商品的照片，但拍摄角度问题导致破损部位在图片里几乎看不清，模型把它描述成'商品包装轻微褶皱'，触发的是普通退货流程而不是破损赔偿流程，直接影响了用户的赔偿金额。

（2）解决：针对这类问题我们加了一个前置质量过滤层，直接用图像处理库在代码层面做计算，速度快、成本低

三、图文语义不一致导致的失效

（1）问题：第二类是图文语义不一致。用户发的图片和文字描述表达的不是同一个意思，模型不知道以哪个为准。比如用户发了一张商品图片，文字说'这个不对'，模型把这条消息理解成商品外观问题，但实际上用户是收到了错误的款式，图片是他想要的那个，文字说的是收到的不对

（2）解决：图像理解层加一个语义一致性校验——让模型先分别理解图片和文字，再判断两者是否表达同一个意图，不一致时输出一个追问而不是强行融合理解，把歧义在输入层消解掉。

四、OCR识别错误导致的失效

（1）问题：在用户上传订单截图、物流单、发票这类场景里高发。截图里的关键数字比如订单号、金额识别出错，后续用这个错误的信息去OMS查询当然查不到，整条链路就断了

（2）解决：对OCR结果做置信度校验，数字类信息识别置信度低于阈值时不直接用，而是回调OMS用其他字段交叉验证，比如用收货人姓名加电话号码来匹配订单，而不是强依赖OCR识别出来的订单号

五、总：怎么持续优化

我们还建了一个多模态评估数据集。把历史上所有图片相关的误召回会话按失效类型打标——输入质量问题、图文不一致、OCR错误、其他——定期跑一次评估，看每类失效的占比变化。哪类占比上升就说明哪个方向出了新问题，把评估结果直接对应到优化优先级，不靠感觉排，靠数据排。

Q2:你对内容安全治理业务的理解是什么？大模型能在哪些环节发挥作用？

一、本质：内容安全治理不是单纯的违规内容过滤，本质是一个动态博弈

（1）违规内容的生产方式在持续进化——从明文违规到谐音字规避、从图文到短视频、从单条内容到跨账号协同传播，每一次平台收紧规则，违规方就找新的绕过方式。治理必须能持续感知新的违规模式，而不是靠一套固定规则打天下。

（2）同时治理是一个双向错误代价不对等的问题。漏放违规内容的代价是平台声誉和法律风险，误杀正常内容的代价是创作者流失和平台生态损伤。两类错误的代价不一样，决定了不同类型的内容需要设置不同的审核阈值，不能用一套标准通杀。

二、全局链路

链路：事前预防 → 实时拦截 → 事后复核 → 申诉处理 → 规则迭代

三、发挥作用

第一个环节：实时拦截里的语义理解

（1）背景：传统审核靠关键词匹配和分类模型，能处理明文违规，但处理不了语义变体

（2）运用：大模型在这里的价值是上下文语义理解，能判断一段内容在当前语境下的实际表达意图，而不是只看字面。尤其是对隐晦表达、谐音规避、暗语系统的识别，大模型的准确率远高于传统分类模型。

（3）注意：实际的设计是分级处理——规则引擎和轻量分类模型先过一遍，明确违规的直接拦截，明确正常的直接放行，只有灰度内容才调用大模型做深度语义判断，把大模型的调用量控制在总量的10%~20%。

第二个环节：事后复核里的辅助判断

（1）背景：人工审核员每天要处理海量内容，认知负荷极高，容易疲劳导致判断失误。

（2）运用：大模型在这里的价值是生成审核辅助报告——在人工审核员看内容之前，大模型先输出一份结构化分析，审核员不是从零开始判断，而是在大模型的辅助结论基础上做确认或推翻。

第三个环节：申诉处理里的理由生成

（1）背景：传统审核系统给创作者的申诉回复通常是模板化的"您的内容违反了XX条款"，创作者不知道具体哪里违规、怎么修改，申诉体验极差，同时申诉处理需要大量人工介入。

（2）运用：大模型在这里的价值是生成个性化的申诉回复——针对这条具体内容，说清楚哪个段落、哪种表达触发了哪条规则，如果可以修改应该怎么改。这个回复不是模板填充，是基于内容本身生成的，创作者理解成本大幅降低，同时申诉处理的人工介入量也随之下降。

第四个环节：规则迭代里的新型违规发现

（1）背景：违规内容在持续进化，新型违规模式往往在大量出现之前只有少量样本，传统分类模型因为样本不足无法训练出有效的检测器。

（2）运用：大模型在这里的价值是少样本新型违规识别——给大模型5~10个新型违规样本，让它归纳这类内容的共同特征和表达模式，生成初步的识别规则，运营同学审核确认之后快速上线，不需要等到积累几千条样本再训练分类模型。这把新型违规的响应周期从几周压缩到几天。

第五个环节：事前预防里的创作引导

（1）背景：在内容发布前给创作者实时反馈，指出可能触发审核的表达方式并给出修改建议，把违规内容在产生阶段就消减掉，而不是等发布之后再拦截。

（2）运用：大模型在这里扮演的是实时内容顾问的角色，不是判官而是助手，对平台生态的长期价值高于单纯的事后拦截。

Q3:突发高危内容（如快手事件），如何借助AI应急处置？模型有哪些短板？

一、触发检测 (agent主动而不是被动）

监控三个维度：同类内容在短时间内的发布量突增、特定关键词的出现频率环比异常、用户举报量在时间窗口内超过阈值。三个维度任意一个触发预设阈值，自动进入应急模式，不需要人工发现再上报。

二、快速打标

事件识别之后，需要对涉及内容快速打上风险标签，区分核心违规内容、变体内容、相关但不违规的内容

（1）高置信度走全自动是因为这类内容的误杀风险极低，响应速度优先。

（2）中置信度用限流而不是下架，是一个折中方案——既降低了违规内容的传播速度，又给人工审核留了时间窗口，避免大规模误杀。

（3）低置信度不处置，因为这类内容的违规判断本身不确定，贸然下架的申诉成本更高。

三、人工审核分级

进入人工队列的内容不是平铺排队，按优先级分三档

（1）P0是传播量已经超过阈值的内容，10分钟内必须处理，专项审核组接管。

（2）P1是置信度中等但传播速度快的内容，30分钟内处理。

（3）P2是低置信度的监控内容，按正常节奏处理。

四、规则沉淀

事件里人工审核员推翻大模型判断的case单独收集起来，分析推翻原因，形成新的标注数据进入微调集

五、大模型的短板

第一个短板：实时性不足

大模型推理有延迟，单条内容的判断时间在秒级，突发事件期间并发量可能是平时的10~20倍，大模型扛不住全量调用。所以第一道过滤必须是规则引擎和轻量模型，大模型只处理灰度内容，控制调用量。

第二个短板：新型违规的盲区

快手这类事件往往伴随新型的传播方式和表达形式，大模型预训练知识截止之后出现的新型违规词汇和暗语系统，模型识别能力很弱。这是为什么应急阶段必须有人工介入——人工审核员能感知到"这个表达方式很奇怪"，但说不清楚为什么，模型反而感知不到。

第三个短板：跨模态协同传播识别能力弱

高危事件往往不是单一内容形态，而是图文+短视频+评论协同传播。大模型对单条内容的判断能力强，但对跨内容、跨账号的协同传播模式识别能力有限，需要图谱分析和关联挖掘来补充。

第四个短板：一致性问题

同样一段内容，大模型在高并发下多次推理可能得到不同的置信度，在需要高度一致性的审核场景里这是一个风险。所以大模型的输出必须经过后处理的校准层，不能直接用原始输出做决策。

Q4:COT、CoD、微调等技术手段，你有了解或应用过吗？

COT的本质是强制模型在给出结论之前先输出推理步骤，利用的是模型对自身生成过程的元认知能力——把中间推理显式化之后，模型更不容易跳步出错。

在千牛客服项目里直接用过。问题回复专家的prompt里有一段推理约束："请先判断用户诉求属于哪类intent，再结合知识库内容给出处理建议，最后输出结论。"这就是COT的实际应用——不允许模型直接输出intent和reply_text，必须先走推理步骤。

COT的局限是增加了token消耗，推理步骤本身也占context，在高并发场景下成本上升明显。所以我们的做法是只在回复专家这一层用COT，问题优化专家那一层不用，控制整体token用量。

CoD是COT的压缩版，核心思路是不要求模型输出完整的推理过程，而是输出关键的推理节点，用草稿式的简短标记代替完整的推理句子。

如果千牛项目当时知道CoD，回复专家这一层应该用CoD而不是完整COT，在保住推理质量的前提下把响应时长再压一压。这是一个后续优化方向。

Q5:auto PE工具你用过哪些？结构化Prompt设计的方法论是什么？

第一类：平台内置的prompt调试工具

Dify和扣子都有内置的prompt调试环境，可以直接在平台里对同一个输入跑多个prompt变体，对比输出结果。在千牛客服项目里用Dify做问题优化专家的prompt迭代，核心用法是把10条典型的歧义会话作为测试用例，每次改完prompt就跑一遍，看输出的rewritten_query质量有没有提升，快速验证prompt改动的效果。