吉利科技 大模型应用开发 二面

感觉面试官自己也不是很熟 没怎么招过

1. 你挑一个最熟悉的项目详细讲一下,重点说业务背景、数据形态和你负责的部分

2. 如果大模型输出格式和你预期不一致,你一般怎么处理

这个问题如果只回答“加强 prompt 约束”会显得太浅。真实场景里,输出格式不一致通常有三层原因:第一层是模型没理解任务边界,第二层是格式本身太脆弱,第三层是生成阶段没有约束。我的做法一般是先把格式要求拆成字段级约束,尽量避免开放式自然语言和结构化字段混在一起;然后再根据场景决定是用 schema 校验、函数调用、受限解码,还是生成后重排修复。

如果业务要求严格,比如必须产出合法 JSON,我不会只依赖 prompt。我会让模型先输出语义内容,再走一层格式化模块,或者直接做 constrained decoding,把非法 token 路径裁掉。生成模型擅长表达,不擅长守规矩,所以格式一致性最好靠系统兜底,而不是全靠模型自觉。

import json

def safe_parse(text):
    try:
        data = json.loads(text)
        assert "label" in data and "score" in data
        return data
    except Exception:
        return {"label": None, "score": None, "raw": text}

3.围绕简历上的项目继续深挖

4. 车照片多标签分类里,可能有哪些干扰因素

这类题不适合答得太散,我一般会从图像质量、场景复杂度和标签歧义三个维度讲。图像质量层面最典型的是逆光、夜间拍摄、反光、运动模糊、压缩失真;场景复杂度层面会有遮挡、拍摄角度极端、背景中出现其他车辆、维修贴纸或污渍干扰;标签歧义层面则是不同损伤在视觉上很像,比如凹陷和阴影、划痕和污迹、裂纹和高光边缘。

真正难的是这些干扰不是独立出现的,往往会叠加。比如一个低清夜间照片里,既有强反光又有部分遮挡,这时候模型分数不一定特别低,但会非常不稳定。项目里通常不能只靠数据增强硬扛,还得补拍摄规范、低质图过滤和不确定样本回流机制。

5. 多标签分类和普通多分类相比,训练目标上最大的区别是什么

多分类默认类别互斥,所以一般用 softmax;多标签则允许多个标签同时成立,通常会转成多个二分类问题,用 sigmoid 做独立概率建模。但这只是最表层的区别,真正难的是多标签任务里类别分布极不均衡,而且标签之间并不独立。你如果完全按独立 Bernoulli 去学,模型会倾向于把高频标签学得很好,低频但关键的标签长期召不回来。

所以多标签任务里,我会更在意损失函数是不是考虑了正负样本不均衡、标签共现有没有利用、以及阈值是不是按类单独调过。很多项目离线 mAP 看起来还行,但线上业务投诉多,就是因为所有类别共用一个阈值,导致一些高风险低频标签基本打不出来。

import torch
import torch.nn.functional as F

def multilabel_loss(logits, targets, pos_weight=None):
    return F.binary_cross_entropy_with_logits(
        logits, targets.float(), pos_weight=pos_weight
    )

6. 多标签场景里,阈值为什么很关键,怎么调才更像工程解法

很多人训练完直接拿 0.5 当阈值,这在真实项目里通常不太行。因为不同标签的先验分布、可分性、业务风险都不一样。比如“严重结构损伤”这种标签,一旦漏掉代价很高,就不应该跟“轻微表面污损”用同一套阈值。工程上我一般会按类调阈值,甚至按业务阶段调阈值,比如初筛阶段追求高召回,复核阶段再提高精度。

如果进一步细做,还可以把阈值和样本质量挂钩。比如图像清晰度低时适当提高某些易误报标签的阈值,或者把低置信度样本自动打回复核队列。模型分数本身不是决策,阈值设计

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

Claude Code 51 万行源码泄露,是一场低级失误引发的行业地震,更是一次免费的技术普惠。它证明:顶级 AI 编程助手≠大模型堆参数,而是架构设计 + 工具编排 + 上下文管理 + 安全机制的综合工程。从六层架构到 Multi-Agent、智能压缩,这套设计已经成为 AI Coding Agent 的事实标准。1.用户交互层:终端 UI,自研引擎不卡技术:React + 自研 Ink 渲染引擎(重写 Reconciler,80 + 文件)。核心:解决 AI 流式输出(每秒几十次更新)的卡顿问题,用双缓冲渲染实现 16ms 级流畅刷新。形态:CLI 命令行、支持彩色 / 滚动 / 实时编辑、多面板布局。2. 命令与技能层:100 + 斜杠命令,降低门槛作用:把复杂 Agent 能力包装成/commit、/diff、/tasks、/agents等Slash 命令,开发者不用记复杂语法。能力:覆盖 Git 工作流、多 Agent 管理、任务调度、外部工具接入(MCP 协议)。3. 核心引擎层(大脑):QueryEngine + 工具 + 权限三驾马车这是 Claude Code 的灵魂,4.6 万行代码的 QueryEngine 是绝对核心。QueryEngine:对话编排中枢,负责任务拆解、思维链、工具选择、循环重试、结果汇总,把自然语言转成可执行步骤。工具系统:定义 40 + 标准工具(文件、Bash、Git、搜索、子 Agent),支持动态扩展、并行调用。权限框架:细粒度工具审批(自动 / 手动确认)、危险命令黑名单(rm -rf)、沙箱降权、审计日志。4. 服务层:对接大模型与外部能力核心服务:claude.ts封装所有 Anthropic API 通信,管理请求 / 响应 / 长连接、流式输出。外部集成:MCP 协议(Model Context Protocol)接入第三方工具、Git/GitHub API、文件系统、终端命令。5. 上下文与记忆层:解决 AI “失忆”,长对话不崩Claude Code 最惊艳的设计之一 ——四层记忆 + 智能压缩,支持超长会话、项目级理解。系统提示(claude.md):项目级规则(技术栈、规范、风格)。目录状态:代码树结构、关键文件、依赖关系。对话摘要:历史压缩,保留关键信息、剔除冗余。实时上下文:工具调用最新结果、当前编辑内容。压缩机制:上下文用到 75%~92% 时自动触发,按信息密度(代码占比)优先压缩低价值内容,避免 Token 爆炸。6. 基础设施层:运行底座运行时:Bun(非 Node.js)—— 更快启动、更低内存、原生 TS 支持。状态管理:React Hooks 全局状态、文件持久化、跨会话记忆。安全沙箱:本地权限隔离、命令白名单、操作审计。三、藏在代码里的 5 大黑科技:为什么 Claude Code 比普通 AI 助手强?1. Multi-Agent 蜂群协作:一个需求,一群 AI 干活泄露代码曝光了未发布的多 Agent 系统—— 彻底告别 “单个 AI 串行干活”。主 Agent(协调器):拆解任务、分发、汇总结果。子 Agent(分工):前端、后端、测试、文档各守一职,独立上下文、并行执行。通信:共享消息总线,直接对话、无需人工中转。效果:200k Token 任务拆成 3 个 70k 并行,速度 ×3、质量更高、不丢上下文。2. 双模式推理引擎:快任务秒回,复杂任务深度啃快速路径:轻量子模型,延迟 < 50ms,处理简单查询(解释代码、查函数)。深度路径:全模型 + 多阶段推理 + 工具循环,支持7 小时 + 无中断代码重构。3. Hook 自动化:开发流程 “自动驾驶”事件驱动触发器,7 类核心 Hook(文件编辑、消息、工具 / 任务前后),改 JSON 就能配置自动化:改测试→自动跑 Lint;提交前→自动跑测试;写入文件→自动规范校验。4. 代理式搜索(Agentic Search):不上传代码库,更安全传统助手(Copilot)要把整个代码库上传云端索引,隐私风险大。Claude Code:按需调用工具,只读需要的文件、本地处理,不把全库发云端。5. 反竞争防御:偷偷塞 “假工具”源码曝光:每次 API 调用会混入几个假工具—— 专门污染偷数据训练竞品的人,属于 Anthropic 的 “商业防御黑科技”。
Claude Code泄...
点赞 评论 收藏
分享
评论
2
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务