无界智索大模型评测实习生一面

一、面试问题题单

工程基础 / Linux 基础
（1）Linux 用过吗？
（2）最常用的一些原子命令是什么？说五个。
大模型评测 / 指标基础
（1）是否知道评测里有一个叫 ROUGE-L 的指标？
（2）ROUGE-L 的指标公式能不能写出来？
（3）这个指标里是不是对应有两个分量，也就是 precision 和 recall？
（4）在最长公共子序列的基础上，如果去实现 ROUGE-L 这个经典指标，该怎么做？
（5）precision、recall，以及相当于 F1 的这个算法，该怎么写？
算法与代码实现
（1）给定两个序列，计算它们最长公共子序列的长度，写代码。
（2）如果把最长公共子序列的空间复杂度从 O(mn) 优化到 O(min(m,n))，该怎么写？
（这里在写作代码的时候）
（3）这里的“公共子序列”理解是否正确？
（4）在此基础上，如何继续实现 ROUGE-L 的代码？
岗位动机 / 匹配度
（1）为什么投递这个岗位？
（2）投递这个岗位时主要是怎么考虑的？
面试官在交流中对背景的确认
（1）是否做过一些和评测相关的工作？
（2）是否做过 Anker 那段经历？
（3）对 research 是否感兴趣？

二、反问环节整理

反问问题一
问题
听完岗位介绍后，提出了一个理解性问题：目前公司的工作是否可以理解为，主要在搭建评测管线，或者做 benchmark、测量指标这类工作，整体更偏业务性一些。

面试官回答
面试官先追问了“业务”如何定义。随后说明，这边并不是偏业务导向，而是主要做基础模型相关工作。核心是基于 open source 和 in-house 的评测集，用工程上高效的方式搭建稳定高效的评测框架，支持训练工作。同时，在有余力的情况下，也会做一些更有影响力的事情，比如自建多阶推理评测集、做文章、做研究任务。总体上更偏基础模型和研究支撑，而不是围绕某个明确业务场景去做指标与营收闭环。

反问过程中获得的岗位信息
虽然不是直接以提问-回答形式出现，但面试官在反问前主动介绍了岗位内容，主要包括以下几块：

第一块：评测工程框架
支持从预训练、后训练到 Agent 全链路的评测任务。Agent 这一块由于很多脚手架没有现成开源代码，需要自己实现；复杂任务如 SWE 等，也需要能够在现有 Infra 上高效跑起来，后续还希望支持轨迹合成等事情。目前已经支持几十个基础 benchmark，日常训练工作基本够用，但稳定性还在持续优化。

第二块：模型评测产品化
未来会把模型评测能力不断迭代到对外推广的机器学习平台产品上，对标阿里云、百炼等平台的评测功能，并持续学习、对标和优化。

第三块：未来方向
未来可能会从 SWE 出发，继续做 Coding Agent 的事情。目前这部分挑战较大，还在构思整个数据合成管线。

反问环节结束后的延伸提问：
为什么投递这个岗位，当时是怎么考虑的？

三、体会和复盘

一次不错的面试体验（虽然一开始感觉面试官本人好像有点mean）

此外代码手撕的时候一开始面试官让我用本地IDE来写作最长公共子串，然后VS CODE的代码补全实在是很强，所以就直接让我用TXT写代码，并且——

给我一版已经写好了的代码，让我审阅代码的问题所在（原话是“这里面有三个错误，你给我指出来”）

“现在AI生成代码的能力已经很强了，我们很多时候需要做的是审阅AI生成的代码逻辑”

之前自己还是站在技术员工或者螺丝钉/执行者的角度太久了，以至于对AI本身听之任之

对AI代码（乃至文章或者图片）的态度，我们应该站在一个管理者的角度——

把AI看作是一堆自己花钱雇佣的助手，需要管理学

去批判、去审阅、去追问缘由和底层逻辑

我们的认知和审美，应该站在比大模型更高的高度

无界智索 大模型评测实习生 一面

全站热榜

创作者周榜

无界智索大模型评测实习生一面