无界智索 大模型评测实习生 一面
一、面试问题题单
工程基础 / Linux 基础
(1)Linux 用过吗?
(2)最常用的一些原子命令是什么?说五个。
大模型评测 / 指标基础
(1)是否知道评测里有一个叫 ROUGE-L 的指标?
(2)ROUGE-L 的指标公式能不能写出来?
(3)这个指标里是不是对应有两个分量,也就是 precision 和 recall?
(4)在最长公共子序列的基础上,如果去实现 ROUGE-L 这个经典指标,该怎么做?
(5)precision、recall,以及相当于 F1 的这个算法,该怎么写?
算法与代码实现
(1)给定两个序列,计算它们最长公共子序列的长度,写代码。
(2)如果把最长公共子序列的空间复杂度从 O(mn) 优化到 O(min(m,n)),该怎么写?
(这里在写作代码的时候)
(3)这里的“公共子序列”理解是否正确?
(4)在此基础上,如何继续实现 ROUGE-L 的代码?
岗位动机 / 匹配度
(1)为什么投递这个岗位?
(2)投递这个岗位时主要是怎么考虑的?
面试官在交流中对背景的确认
(1)是否做过一些和评测相关的工作?
(2)是否做过 Anker 那段经历?
(3)对 research 是否感兴趣?
二、反问环节整理
反问问题一
问题
听完岗位介绍后,提出了一个理解性问题:目前公司的工作是否可以理解为,主要在搭建评测管线,或者做 benchmark、测量指标这类工作,整体更偏业务性一些。
面试官回答
面试官先追问了“业务”如何定义。随后说明,这边并不是偏业务导向,而是主要做基础模型相关工作。核心是基于 open source 和 in-house 的评测集,用工程上高效的方式搭建稳定高效的评测框架,支持训练工作。同时,在有余力的情况下,也会做一些更有影响力的事情,比如自建多阶推理评测集、做文章、做研究任务。总体上更偏基础模型和研究支撑,而不是围绕某个明确业务场景去做指标与营收闭环。
反问过程中获得的岗位信息
虽然不是直接以提问-回答形式出现,但面试官在反问前主动介绍了岗位内容,主要包括以下几块:
第一块:评测工程框架
支持从预训练、后训练到 Agent 全链路的评测任务。Agent 这一块由于很多脚手架没有现成开源代码,需要自己实现;复杂任务如 SWE 等,也需要能够在现有 Infra 上高效跑起来,后续还希望支持轨迹合成等事情。目前已经支持几十个基础 benchmark,日常训练工作基本够用,但稳定性还在持续优化。
第二块:模型评测产品化
未来会把模型评测能力不断迭代到对外推广的机器学习平台产品上,对标阿里云、百炼等平台的评测功能,并持续学习、对标和优化。
第三块:未来方向
未来可能会从 SWE 出发,继续做 Coding Agent 的事情。目前这部分挑战较大,还在构思整个数据合成管线。
反问环节结束后的延伸提问:
为什么投递这个岗位,当时是怎么考虑的?
三、体会和复盘
一次不错的面试体验(虽然一开始感觉面试官本人好像有点mean)
此外代码手撕的时候一开始面试官让我用本地IDE来写作最长公共子串,然后VS CODE的代码补全实在是很强,所以就直接让我用TXT写代码,并且——
给我一版已经写好了的代码,让我审阅代码的问题所在(原话是“这里面有三个错误,你给我指出来”)
“现在AI生成代码的能力已经很强了,我们很多时候需要做的是审阅AI生成的代码逻辑”
之前自己还是站在技术员工或者螺丝钉/执行者的角度太久了,以至于对AI本身听之任之
对AI代码(乃至文章或者图片)的态度,我们应该站在一个管理者的角度——
把AI看作是一堆自己花钱雇佣的助手,需要管理学
去批判、去审阅、去追问缘由和底层逻辑
我们的认知和审美,应该站在比大模型更高的高度
工程基础 / Linux 基础
(1)Linux 用过吗?
(2)最常用的一些原子命令是什么?说五个。
大模型评测 / 指标基础
(1)是否知道评测里有一个叫 ROUGE-L 的指标?
(2)ROUGE-L 的指标公式能不能写出来?
(3)这个指标里是不是对应有两个分量,也就是 precision 和 recall?
(4)在最长公共子序列的基础上,如果去实现 ROUGE-L 这个经典指标,该怎么做?
(5)precision、recall,以及相当于 F1 的这个算法,该怎么写?
算法与代码实现
(1)给定两个序列,计算它们最长公共子序列的长度,写代码。
(2)如果把最长公共子序列的空间复杂度从 O(mn) 优化到 O(min(m,n)),该怎么写?
(这里在写作代码的时候)
(3)这里的“公共子序列”理解是否正确?
(4)在此基础上,如何继续实现 ROUGE-L 的代码?
岗位动机 / 匹配度
(1)为什么投递这个岗位?
(2)投递这个岗位时主要是怎么考虑的?
面试官在交流中对背景的确认
(1)是否做过一些和评测相关的工作?
(2)是否做过 Anker 那段经历?
(3)对 research 是否感兴趣?
二、反问环节整理
反问问题一
问题
听完岗位介绍后,提出了一个理解性问题:目前公司的工作是否可以理解为,主要在搭建评测管线,或者做 benchmark、测量指标这类工作,整体更偏业务性一些。
面试官回答
面试官先追问了“业务”如何定义。随后说明,这边并不是偏业务导向,而是主要做基础模型相关工作。核心是基于 open source 和 in-house 的评测集,用工程上高效的方式搭建稳定高效的评测框架,支持训练工作。同时,在有余力的情况下,也会做一些更有影响力的事情,比如自建多阶推理评测集、做文章、做研究任务。总体上更偏基础模型和研究支撑,而不是围绕某个明确业务场景去做指标与营收闭环。
反问过程中获得的岗位信息
虽然不是直接以提问-回答形式出现,但面试官在反问前主动介绍了岗位内容,主要包括以下几块:
第一块:评测工程框架
支持从预训练、后训练到 Agent 全链路的评测任务。Agent 这一块由于很多脚手架没有现成开源代码,需要自己实现;复杂任务如 SWE 等,也需要能够在现有 Infra 上高效跑起来,后续还希望支持轨迹合成等事情。目前已经支持几十个基础 benchmark,日常训练工作基本够用,但稳定性还在持续优化。
第二块:模型评测产品化
未来会把模型评测能力不断迭代到对外推广的机器学习平台产品上,对标阿里云、百炼等平台的评测功能,并持续学习、对标和优化。
第三块:未来方向
未来可能会从 SWE 出发,继续做 Coding Agent 的事情。目前这部分挑战较大,还在构思整个数据合成管线。
反问环节结束后的延伸提问:
为什么投递这个岗位,当时是怎么考虑的?
三、体会和复盘
一次不错的面试体验(虽然一开始感觉面试官本人好像有点mean)
此外代码手撕的时候一开始面试官让我用本地IDE来写作最长公共子串,然后VS CODE的代码补全实在是很强,所以就直接让我用TXT写代码,并且——
给我一版已经写好了的代码,让我审阅代码的问题所在(原话是“这里面有三个错误,你给我指出来”)
“现在AI生成代码的能力已经很强了,我们很多时候需要做的是审阅AI生成的代码逻辑”
之前自己还是站在技术员工或者螺丝钉/执行者的角度太久了,以至于对AI本身听之任之
对AI代码(乃至文章或者图片)的态度,我们应该站在一个管理者的角度——
把AI看作是一堆自己花钱雇佣的助手,需要管理学
去批判、去审阅、去追问缘由和底层逻辑
我们的认知和审美,应该站在比大模型更高的高度
全部评论
相关推荐
点赞 评论 收藏
分享