04-16 18:28 已编辑北京航空航天大学前端工程师发布于山东

关注

大厂面试官谈谈春招/校招生如何证明自己的AI Coding能力

应公司要求，最近我们部门部分岗位的面试开始正式考察AI Coding能力。面了十几场之后，发现了一些大家普遍存在的问题。

很多同学被问到“有没有用过AI Coding工具”时，回答就停在“用过”两个字上。再追问“那你觉得它和Copilot有什么区别”“你在实际项目中遇到过什么问题”，就开始含糊了。还有不少同学把AI当成一个高级搜索引擎——问一句，拿一段代码，粘上去跑通就完事了，完全没有“协作”和“工程化”的意识。同学还不清楚面试官到底想考察什么。

如果把时间拉回到2025年的暑期和秋招，这类问题当时还只出现在少数比较前沿的公司和团队里。但到了今年，它已经明显铺开了。原因其实也不复杂，因为很多公司都在大规模引入AI Coding来提升效率。面试官问这个问题，本质上是在考察你的技术敏感度和工程适应能力。

说白了，如果现在招一个实习生进来，连最基本的AI Coding都不会用，那团队很自然会想，我为什么不直接把这部分预算拿去开个Claude Max或者Codex呢？所以问题已经不是AI Coding要不要学，而是春招/校招生在求职时，到底该怎么证明自己真的会AI Coding。

很多人说的AI Coding，其实并没有达成共识

在2026年的今天，“会AI Coding”这个说法实在太宽了。有人说的是会用工具，有人说的是会调prompt，有人觉得是能让模型快速出代码，也有人认为只要会做一个能跑的demo就算。这些能力当然都有用，但它们更多说明一件事，就是你懂得把AI当成一个提效工具。

然而，真实的工程任务不是这样完成的。真正的工程任务是在上下游复杂、约束很多、状态很多、风险很多的情况下，持续推进一个系统，而且不跑偏、不烂尾、不留下大量后患。一旦任务从补代码进入长时间、连续、复杂的区间，判断标准就变了。这时候真正重要的，不再是模型能不能写，而是你能不能组织。

为什么一进入长问题，AI就变笨

如果你真的用agent做过复杂任务，从做demo到做一些更接近工业级的项目，你一定有很多因为agent对项目理解发生偏移而抓狂的时刻。模型本身似乎已经不是coding的瓶颈了，但在长任务里面，agent就是会不小心失控，直至搞砸一切。

根据经验，最常见的失控方式有六种：

上下文没拿够就开工；
规划偏航，你让它做A它却做成了A'；
只会交quick fix，而不考虑长期维护；
一遇到复杂度就开始逃避；
验证偷懒，写出弱测试或者测错对象；
改完代码不清理仓库，导致熵越来越高。

长任务真正考验的不是模型，而是你有没有一套办法去对抗这些失败模式。如果没有，所谓的AI Coding最后很可能只是高效地产生更多混乱。

Harness Engineering：一种回答“你真的会AI Coding吗”的视角

最近agent圈子里有一个词很火，叫Harness Engineering。它关注的是你把AI放进什么样的工作环境里，这个环境又如何保障它的产出足够可靠。翻译成人话就是，你怎么把任务、上下文、边界、检查点、验证、交接和收尾组织起来，让agent不烂尾。

同样一个模型，有的人拿来补代码，有的人拿来持续推进复杂系统，差异主要不在模型本身，而在于你有没有一套组织它的办法。从这个视角来看，AI Coding不是一句prompt换一段答案，它更像一个完整过程，包括怎么拆任务、怎么喂上下文、怎么卡边界、怎么设检查点、怎么做验证、怎么做交接，以及怎么在结束后降低仓库的熵。这才是后端或Agent开发方向里，更接近真实工作的能力。

问题不在你会不会说这些词，而在你拿什么证明

写到这里，真正的问题才出现。你当然可以说自己理解agent、理解长任务、理解harness，但求职不是比谁说得懂，而是比谁拿得出证据。面试官不会因为你会说orchestration、telemetry、handoff这些词，就相信你真的会AI Coding。他们真正要看的，是你有没有把这些理解落成具体的工程动作。

所以对校招生来说，问题不再是“我懂不懂这些概念”，而是“我拿什么证明自己真的会”。我最近深度看了几篇关于Codex最佳实践和long-running harness设计的文章，再结合我自己的使用经验，总结出五条我觉得最值得拿去面试里讲的标准。对校招生来说，这五条不是概念，它们是你最该准备、也最该展示的能力证据。

第一条：你能把任务定义清楚，而不是只会提需求

OpenAI的Codex最佳实践其实已经把高质量任务定义得很清楚了。一个好prompt至少要有四样东西，就是Goal、Context、Constraints和Done when。这四个东西看起来像是prompt技巧，但本质上其实是工程定义能力。

所以第一条可验证标准不是你会不会写prompt，而是你能不能把一个模糊问题，定义成一个agent真能执行的工程任务。

这意味着你不是对agent说一句“你帮我做个推荐系统”，而是：

能明确目标到底是什么，哪些代码、文档、报错和样例是相关上下文；
哪些架构约束、工程规范和不可改动边界必须遵守；
以及任务完成之前什么结果必须成立。

这也是为什么Anthropic在做long-running harness时，会先让planner把几句简单的需求扩展成完整的spec。因为在复杂任务里，最危险的不是写不出来，而是一开始就把问题定义错了。

在面试时，你可以这样证明：

不要只说我让AI帮我做了什么，而是讲你自己写过的一份Goal、Context、Constraints、Done when的任务文档，讲你怎么把一个模糊需求定义成agent可执行的任务，以及你怎么在任务开始前就把边界和验收条件说清楚。

这时候你证明的就不是“我会写提示词”，而是“我会定义工程任务”。

第二条：你能把大任务拆成可持续推进的小块，而不是一把梭

复杂的大任务如果不做拆分，agent很快就会出现两种问题：要么上下文越来越乱，要么开始跟需求偏移。所以第二条标准是，你能不能把复杂任务拆成多个可以独立推进、独立检查的小阶段。这件事不是项目管理层面的拆需求，而是agent工程层面的“让每一轮工作都足够清晰、足够短、足够能验”。

举个例子，一个“给后台加账单导出、邮件发送和审计日志”的任务，不应该直接交给agent一次做完，而应该拆成先读代码和确认边界，然后先做导出接口，再接邮件发送，再补审计日志，最后集中验证和收尾。Anthropic甚至在每个sprint开始前，让generator和evaluator先谈一个sprint contract，先谈清楚这一小块到底做什么、怎么验，再开始写代码。

对于这一点，你可以这样证明：

第一，把你AI Coding的任务找个典型的场景，组织成一个多阶段任务拆解样本，最好还能讲清楚你为什么这么拆，而不是按功能名机械切块。

第二，当发现AI Coding的内容和自己的需求偏移了，你要能讲清楚你是怎么从过程中识别到是开发出问题了还是设计出问题了，从而回溯到合理的状态，重新拆解直至完成开发。

第三条：你能管理上下文和交接，而不是靠一条长聊天硬撑

Anthropic对长任务的一个核心观察是，模型在长上下文里会逐渐失去连贯性，有些模型还会出现所谓的context anxiety，也就是越接近上下文极限，越想提前收尾。这也是为什么他们强调context resets和structured handoff。OpenAI那边虽然表述方式不同，但也在讲同一件事，就是复杂任务要先plan，稳定规则要写进AGENTS.md，不要把一切都临时塞进prompt里。

所以第三条标准是，你能不能在长任务里管理上下文，并且在session之间做高质量的交接。

这意味着你知道：

什么上下文该给、什么不该给；
什么规则应该写进AGENTS.md而不是每次重说；
什么时候该reset、compact或者重开session。

交接也不该是聊天记录的复制，而应该是结构化的状态交接。一个好的交接，不是“我们刚才聊到哪了”，而是包含当前目标、当前状态、剩余问题、不能踩的边界以及下一步应该做什么。

对于这一点，你可以这样证明：

一方面，跟面试官分享你在Codex或者Claude Code里面对于AGENTS.md或repo rule的设计，证明你不是靠记忆和运气在维持长任务。另一方面，分享你自己写过的handoff文档，或者一个“Codex干完，Claude来review”的交接案例。

第四条：你能把验证独立出来，而不是让agent自己给自己打分

Anthropic曾明确指出，self-evaluation是agent的系统性弱点，让做事的agent自己评价自己的结果，往往会“看起来很满意”，哪怕实际质量很一般。OpenAI的Codex最佳实践也在强调同一件事，就是不要停在“让Codex改完”，还要要求它写测试、跑检查、确认行为、review diff。

所以第四条标准是，你能不能把build和test分开。这条非常关键，因为现实里最常见的假完成，就是代码写了，测试也过了，但测试测的是错的东西，diff看着不少，真实需求却没被满足。真正会AI Coding的人，不会只信agent的口头汇报，他会设计一个独立的verification loop。这个loop可以包括测试、lint或typecheck、行为截图、日志检查、diff review，甚至另一个fresh-context agent做review。

对于这一点，你可以这样证明：

一个是向面试官分享一个“干活agent”和“review agent”分离的例子。另一个是分享一个具体的验收方案，比如对于需要点点点的页面，可以用类似browse之类的skill，约定一套页面验收逻辑，从而减少AI的自信幻觉。

第五条：你能把经验沉淀成稳定工作流，而不是每次临场发挥

OpenAI有一句话说得很好，Codex最好被当成一个teammate you configure and improve over time，而不是一次性的assistant。这句话对应到工程上，就是好的工作流应该逐渐从临时prompt，沉淀成稳定规则、固定skill、自动review和可复用的automation。

所以第五条标准是，你能不能把一次成功沉淀成可复用的工作流。

这包括：

哪些规则应该固化进AGENTS.md，
哪些重复动作应该做成skill，
哪些review逻辑应该变成checklist，
哪些流程是稳定的值得自动化，
以及哪些harness组件其实已经过时了应该删掉。

这也是“会用AI”和“会做AI Coding”之间的真正差距。前者只会在单次任务里表现，后者会让整个系统越来越稳。

对于这一点，你可以向面试官分享你的AI Coding进化过程：

最开始是怎么做的，中间踩了什么坑，哪些规则后来被写进了AGENTS.md，哪些步骤被做成了模板，哪些校验被沉淀成了固定流程。

一个“会用AI”的校招生，和一个“会做AI Coding”的校招生，差在哪

说到这里，我想你已经开始感受到，这两者之间差的不是工具熟练度，而是他们在面试里说出来的话，根本不是一回事。

一个“会用AI”的校招生通常会怎么说？他会说我平时会用Cursor、Claude或者Codex，我会让AI帮我补代码、写demo、生成单测，我能用AI提高开发效率，有时候我也会让它帮我debug。这些都不能说错，甚至很多面试官一开始听到这里，也会觉得还行，至少不是完全不用。但问题是，这种回答只能说明你知道怎么把AI当工具，它还证明不了你能不能把AI放进一个真实的工程流程里，去承担更复杂、更长、更容易失控的任务。

而一个“会做AI Coding”的校招生，讲法会完全不同。他不会重点讲“我用了哪个工具”，

而会重点讲他是：

怎么先把任务定义清楚再交给agent去做；
怎么拆分长任务让它不是一把梭；
怎么管理上下文；
什么时候重开session、什么时候做交接；
怎么防止agent跑偏并在中途发现它已经偏了；
怎么把build和verification分开、不让agent自己糊弄自己；
以及怎么在任务结束后做收尾、让仓库变得更稳定而不是更乱。

这两种人最根本的区别在于：

前者在展示“我会不会用AI”，后者在展示“我能不能组织AI”。前者更像是在讲一组使用习惯，后者是在讲一套工程能力。前者会把重点放在“AI帮我做了什么”，后者会把重点放在“我怎么约束它、检查它、修正它、接力它、沉淀它”。

所以如果你想在面试里真正把差距拉出来，你不要只是说我平时也会用Codex、Claude Code，这种话现在没有区分度了。

你要说的是：

我不是把AI当demo产生机在用，
我已经开始把它放进一个长任务workflow里了。
我会先定义任务，再拆分阶段，再做交接和验证，最后把有效经验沉淀成固定规则。

这时候面试官听到的，就不再是“你跟大家一样也会用点AI”，而是你已经开始有一点agent engineering的意识了。这就是差距。

再说得更直白一点。一个“会用AI”的校招生，面试时最容易给人的感觉是工具挺熟、反应挺快、愿意学新东西，但更像是一个会用新工具的人。

而一个“会做AI Coding”的校招生，给人的感觉会是知道agent会怎么失控，知道什么该交给AI、什么不该，知道怎么把一个长任务拆开、接住、验掉，知道怎么让仓库状态越来越稳。后者身上体现出来的，就不只是AI使用能力，而是更接近真实工作里的工程判断力。

这也是为什么我前面一直在讲，今天求职里真正稀缺的，不是你会不会让AI出代码，而是你能不能把一个不稳定的agent，组织成一个稳定的工程过程。如果你只能讲“我也会用这些工具”，那你和别人差不多。如果你能讲清楚“我怎么定义任务、怎么拆解、怎么交接、怎么验收、怎么收尾”，那你就已经不是在使用工具，而是在展示方法论和工程能力。而后者，才更接近今天团队真正想招的人。

总结

会用AI，只能证明你跟上了工具；会组织AI，才能证明你开始像一个真正的工程师那样工作。如果你接下来要准备这类面试，不要再只准备“我最近用了哪些AI工具”。你更应该准备的是一个真实任务、一次任务定义、一次任务拆解、一次交接、一次验收、一次失败后的回溯和修正，以及一次把经验沉淀成规则的过程。因为这些东西，才真正能证明你不是在“试试玩AI”，而是在开始学习怎么和agent一起做工程。这才是今天校招生在AI Coding这件事上，最应该建立的区分度。