一、面试问题题单工程基础 / Linux 基础(1)Linux 用过吗?(2)最常用的一些原子命令是什么?说五个。大模型评测 / 指标基础(1)是否知道评测里有一个叫 ROUGE-L 的指标?(2)ROUGE-L 的指标公式能不能写出来?(3)这个指标里是不是对应有两个分量,也就是 precision 和 recall?(4)在最长公共子序列的基础上,如果去实现 ROUGE-L 这个经典指标,该怎么做?(5)precision、recall,以及相当于 F1 的这个算法,该怎么写?算法与代码实现(1)给定两个序列,计算它们最长公共子序列的长度,写代码。(2)如果把最长公共子序列的空间复杂度从 O(mn) 优化到 O(min(m,n)),该怎么写?(这里在写作代码的时候)(3)这里的“公共子序列”理解是否正确?(4)在此基础上,如何继续实现 ROUGE-L 的代码?岗位动机 / 匹配度(1)为什么投递这个岗位?(2)投递这个岗位时主要是怎么考虑的?面试官在交流中对背景的确认(1)是否做过一些和评测相关的工作?(2)是否做过 Anker 那段经历?(3)对 research 是否感兴趣?二、反问环节整理反问问题一问题听完岗位介绍后,提出了一个理解性问题:目前公司的工作是否可以理解为,主要在搭建评测管线,或者做 benchmark、测量指标这类工作,整体更偏业务性一些。面试官回答面试官先追问了“业务”如何定义。随后说明,这边并不是偏业务导向,而是主要做基础模型相关工作。核心是基于 open source 和 in-house 的评测集,用工程上高效的方式搭建稳定高效的评测框架,支持训练工作。同时,在有余力的情况下,也会做一些更有影响力的事情,比如自建多阶推理评测集、做文章、做研究任务。总体上更偏基础模型和研究支撑,而不是围绕某个明确业务场景去做指标与营收闭环。反问过程中获得的岗位信息虽然不是直接以提问-回答形式出现,但面试官在反问前主动介绍了岗位内容,主要包括以下几块:第一块:评测工程框架支持从预训练、后训练到 Agent 全链路的评测任务。Agent 这一块由于很多脚手架没有现成开源代码,需要自己实现;复杂任务如 SWE 等,也需要能够在现有 Infra 上高效跑起来,后续还希望支持轨迹合成等事情。目前已经支持几十个基础 benchmark,日常训练工作基本够用,但稳定性还在持续优化。第二块:模型评测产品化未来会把模型评测能力不断迭代到对外推广的机器学习平台产品上,对标阿里云、百炼等平台的评测功能,并持续学习、对标和优化。第三块:未来方向未来可能会从 SWE 出发,继续做 Coding Agent 的事情。目前这部分挑战较大,还在构思整个数据合成管线。反问环节结束后的延伸提问:为什么投递这个岗位,当时是怎么考虑的?三、体会和复盘一次不错的面试体验(虽然一开始感觉面试官本人好像有点mean)此外代码手撕的时候一开始面试官让我用本地IDE来写作最长公共子串,然后VS CODE的代码补全实在是很强,所以就直接让我用TXT写代码,并且——给我一版已经写好了的代码,让我审阅代码的问题所在(原话是“这里面有三个错误,你给我指出来”)“现在AI生成代码的能力已经很强了,我们很多时候需要做的是审阅AI生成的代码逻辑”之前自己还是站在技术员工或者螺丝钉/执行者的角度太久了,以至于对AI本身听之任之对AI代码(乃至文章或者图片)的态度,我们应该站在一个管理者的角度——把AI看作是一堆自己花钱雇佣的助手,需要管理学去批判、去审阅、去追问缘由和底层逻辑我们的认知和审美,应该站在比大模型更高的高度