今天 10:10 影石Insta360_前端测试开发部_测试开发工程师

发布于广东

关注

美团计划裁员30%,测试和产品砍一半,测试全栈化时代来了!

一、AI 测试的分水岭

从“使用”到“治理”现在市面上的 AI 测试落地尝试，基本分两个流派。一派是把 Claude Code 当外包小弟，人写提示词，它出脚本，人再复制粘贴到框架里。看起来快，实则返工率高得惊人。因为每一轮对话都是独立的，没有版本约束，没有上下文锁定，出问题只能从聊天记录里翻证据。

另一派，已经开始用交付流水线的思维治理 AI。不再把 Claude Code 当成一个聊天窗口，而是当成流水线里一个“生成步骤”。这个步骤有固定的输入源、参数化模板、审批节点、质量阈值，跑完自动进入下一环节。后一种做法的核心已经不是“用 AI”，而是把 AI 输出变成可治理的资产。这就是 Harness 工程干的事。Harness（这里指 Harness 这一现代 CI/CD 平台）本身就擅长管交付流水线。它的 Pipeline、Approval、Template、变量管理这些机制，天然适合给智能体当“脊椎”。把 Claude Code 的 API 封装进 Harness 的步骤里，你就得到了一套可控的测试智能体系统，而不是一个黑洞聊天框。

说白了：Claude Code 是大脑，Harness 是让大脑可靠行动的脊椎。三、Harness + Claude Code 的脊椎架构拆解直接看架构。我们在 Harness 上搭建的测试智能体系统，核心组件是这样的：这张图看着不复杂，但和“裸调 Claude Code”有本质区别。

为什么这么做：解决了三个致命问题。 一是上下文一致性。每次运行 Pipeline，Claude Code 拿到的上下文都是同一套代码版本和 Prompt 模板，不会因为聊天滚动而丢失信息。二是可审计。Harness 的执行历史、产物、审批记录全留档，再也不用去翻聊天记录找“上次你给我的那个脚本”。三是幻觉可控。质量门拦截不规范或明显错误的生成结果，直接打回，形成反馈闭环.

转载于: 霍格沃兹测试开发社.

#软件测试求职##测试全栈化##美团裁员##测试开发##软件测试#

全部评论

推荐最新楼层

烤点老白薯

北京体育大学测试工程师

大厂的正式测试开发工程师已经要变成全栈或者agent的开发工程师，或者说是什么AI体验 AI质量工程师了。然后那种最低级的外包测试岗应该还是有岗位的，不过正式员工肯定是要求会越来越高了

点赞回复分享

发布于今天 13:16 北京

昨天 17:27

已编辑

快手_后端开发实习生(实习员工)

来🦢的第一个需求就是3000行skill

在我来鹅之后，接到的第一个完整大需求就是需要编写一个skill，之前的实习也写过一些skill，但是在我的理解中skill就是跟提示词没差，把你需要的目标全写上就好了，所以第一次mr我提交了一个超过1200行的md，被mt打了回去，为了完成这个需求，我又赶紧请教了我身边的大神同学，获取一些写skill的经验，将原先1200行的md进行了对应的references拆封，又通过我朋友教我的验证机制验证这个skill的效果，最后完成了我的第一个需求。正好前两篇文章给大家分享了写好的用来包装简历的skill，那么今天来给大家分享怎么去写一个好的，可以实际用来工作的skill，摆脱只会写提示词的尴尬。构建 Skill 的五个步骤Step 0：先写 EvalsEval（Evaluation，评估）是一套结构化的、可重复运行的测试用例集，用来判断 Skill 的表现是否符合预期。它不是泛指&quot;测试一下&quot;，而是开发 Skill 的前提条件。一个典型的 Skill eval 集至少包含三类用例：- 正例（Positive）：用户说“帮我看一下这个 PR 能不能合”，验证 Skill 应该被加载- 负例（Negative）：用户说“帮我把代码格式化一下”，验证 Skill 不该被加载——路由别跑偏到不该触发的地方- 边界（Edge）：“这个 PR 改了一行日志，要不要审”，验证边界情况下的路由行为正例和负例都要写，而且负例往往比正例更值钱——误触发是 Skill 路由的头号失败模式。Eval 不只是测一次。Perplexity 的 eval 分三个层次：如下图每种都要在 GPT、Claude Opus、Claude Sonnet 不同的 orchestration 模型上分别跑——Sonnet 和 GPT 的 Skill 行为差异很大，只在一种模型上过了不够。没有 evals，你改 description 就是在盲改，一个新 Skill 也可能悄悄搞坏已有的十个 Skill。Step 1：写 Description（最难的一行）description 是路由触发器，不是文档。写好它不需要关心 Skill 的内容，只需要关心能不能在正确的时间加载、有没有意外触发到不应该触发的地方——误触发是头号失败模式，每加一个 Skill 都有可能让其他 Skill 变差。糟糕的 description 描述 Skill 做什么，好的 description 说什么时候加载。举个监控 PR 的例子：不要写这个 Skill 做什么，要写工程师感到焦虑时会说什么——"babysit"、"watch CI"、"make sure this lands"。快速检查清单：- 以"Load when…"开头- 控制在 50 词以内- 描述用户意图，最好来自真实查询- 不总结工作流程Step 2：写 Body跟同事讲工作流程和跟 LLM 讲工作流程完全是两回事。对几乎任何面世超过一年的软件工具，只要提名字，模型已经知道怎么用。所以跳过模型已经懂的部分。不用写出每一步命令。比如不要写 git log → git checkout main → git checkout -b clean-branch → git cherry-pick commit。写 "Cherry-pick the commit onto a clean branch. Resolve conflicts preserving intent. If it can't land cleanly, explain why." 模型在后者上表现好得多，尤其是事情不按预期走的时候。太规定的指令比灵活的指令更脆弱。然后聚焦 gotchas 和反例，它们是最高信噪比的内容。每次 Agent 搞砸了就加一条，gotcha 会自然地累积起来。条件逻辑或内容太重的东西移出 SKILL.md，放到 accessory file 里渐进加载。Step 3：用层级结构- scripts/ —— 确定性逻辑，模型不用每次重新发明- references/ —— 重型文档，条件触发才读（"如果 API 返回非 200，读 api-errors.md"）- assets/ —— 输出模板，模型直接复制填充- config.json —— 首次运行设置，问一次保存下来对于极其复杂的 Skill，进一步考虑是否应该拆成一组 Skill，用 depends: 声明加载关系。Step 4：迭代切分支出来，在无 Skill 的状态下跑 hero query（核心用户场景查询），建 eval 集，反复调。提交 review 时最好一个 changeset 里自带 eval 集。Description 里的小词改动对路由影响很大，甚至会 spillover（溢出）到其他 Skill，所以这些在 Step 5 之前做完。Step 5：发布大家快把这5步实行起来，成为写skill专家吧！

AI了，我在打一种很新的...

点赞评论收藏

分享

05-26 17:20

门头沟学院人工智能

要不要背刺室友😭

27届，双非本科，室友比我强，他oc了一个还不错的offer，走之前让我帮忙答到，瞒着点儿。我们这个学期其实没啥课了，我自己最近也在找实习，但是学校不知道抽啥风，从上周开始连着好几天了一直在查课，查出来好几个旷课的（还好我室友没被点到。。）昨天导员特别生气，把所有班委叫过去开会，原话：发现私自离校实习的直接检举，知情不报的一起背处分。真麻了，这不纯纯逼我们互相举报吗？我昨天跟室友发信息了，让他赶紧回来，他也一直没回信息。这要再查一周，肯定就能查到他啊！万一查出来，我咋办？连坐背处分，保研评优全泡汤，他拍拍屁股在外面实习攒经验，风险全让我扛，我感觉自己现在就跟那个大怨种一样。真难受啊，烦死了！！、学校到底在防什么啊，现在一周也没几节课，出去实习不比坐在教室里刷手机强？整个大学只能容纳考公考研，不能出去工作是吧！！咋办咋办！在查到之前，到底要不要跟导员说？说吧，我不是人。不说吧，我怕我扛不住后果

牛客23238059...：看见不回吧，你让你别的舍友联系一下他，说明情况，如果他不回消息，那你也别管了呀，他自己的事不关心，也没给你好处干嘛帮他担责任

点赞评论收藏

分享

昨天 11:42

天津理工大学 C++

腾讯电话漏接

这个电话我漏接了回拨无效 说只能等人主动拨回来想问问这个是腾讯官方的还是腾讯外包的啥的🥹 无邮件约面信息

点赞评论收藏

分享

昨天 18:56

门头沟学院 Java

还是得去实习啊

家人们，主包最近实习公司可以爽用ClaudeCode 太牛了 mentor哥给了我几个skill，什么需求分析、写代码等；小的需求主包就能直接上手做了；实习之前因为穷没用过，现在每天都在用，有种乡下人进城了的感觉 太爽了虽然公司不大，但是token真舍得烧啊，主包还用他润色简历，看看老项目有啥AI结合的空间大家有什么好用的skill，评论区求推荐！！

点赞评论收藏

分享

昨天 18:40

南京邮电大学后端工程师

投票

目前拿到两个暑期offer一个滴滴秋储，base杭州，大数据计算后端研发，好像是搞数据引擎的另一个是华为，base南研所，终端云，应该也是Java大家好像都避雷华为，真的对走互联网是debuff吗，我感觉华为好歹也算个大厂吧犹豫是因为一方面华为给的实在太多了，几乎是滴滴双倍，而且好像比较清闲，另外个人秋招还希望再往上够一够，也不太考虑转正，但是华为可能含金量不够。有没有懂的朋友给个建议

点赞评论收藏

分享

评论

5

5

招聘动态

快手

27届实习超多转正机会

27届校招宝典

网申助手插件

校招信息网申列表

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

993563次浏览 5003人参与

# AI了，我在打一种很新的工 #

205504次浏览 2062人参与

# 发面经攒人品 #

8850201次浏览 98180人参与

# 万物皆可发面经 #

3603次浏览 51人参与

# 27届实习投递记录 #

161106次浏览 1647人参与

# 实习，不懂就问 #

227685次浏览 1750人参与

# 国企是春招机械人最好的去处吗 #

153460次浏览 578人参与

# 秋招投递攻略 #

295523次浏览 2640人参与

# 实习生至暗时刻 #

93329次浏览 942人参与

# 从mentor身上学到了__ #

67496次浏览 940人参与

# 父母对你找工作是助力还是阻力？ #

51973次浏览 459人参与

# 你的mentor是什么样的人？ #

66744次浏览 843人参与

# 你觉得mentor喜欢什么样的实习生 #

63893次浏览 1081人参与

# 找实习记录 #

281988次浏览 1663人参与

# 我和mentor的爱恨情仇 #

121334次浏览 1038人参与

# 牛友的志愿填报指南 #

73217次浏览 506人参与

# 找工作时的取与舍 #

140016次浏览 932人参与

# 第一次找实习，我建议__ #

89753次浏览 912人参与

# 实习如何「偷」产出？ #

768238次浏览 8416人参与

# 你上一次给父母打电话是什么时候 #

46690次浏览 288人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务