税友集团一面
上来一道 easy 题
介绍项目
有个很值得探讨的问题,如何评估一个模型评分可不可 靠
 我的做法是生成的文本送给 gpt4去评分,

但是面试官说怎么证明 gpt4就是对的,他分享了下他的思路,应该让人类先对这样的回复进行评分,给定一个标准 然后再给看gpt 的打分是否和人类一致

我反问那如果人类的打分水平参差不齐呢

“这样的话 就规定一群人投票 表决什么样的评分是好的”

我说 那这样的话 不是很消耗人力成本

“但是你只需要标定一次 如果结果和预期符合,就说明这个模型可信”

我说 那如果换一个场景,这就要重新再做一次

“理论上每个场景都要这样做”

我说 那如果假设打分的人类服从高斯分布 中间的人肯定占的分布比较多 ,假设 gpt4是最右边高质量的分布,怎么能证明中间分布的人的打分,就一定比 gpt4好呢

“如果是这样 就需要分别针对什么样的人群 去设置一个打分 如果你想卖给中间人群, 就找一个中间的人群的水平打分”

大模型是不是真的能够理解人类的指令 🤔
全部评论
佬 是线下手撕吗
点赞 回复 分享
发布于 2024-10-14 12:52 浙江

相关推荐

不愿透露姓名的神秘牛友
2025-12-04 02:00
offer1:字节跳动(北京)- 后端开发岗- 薪资:总包42w(基本工资30w+绩效6w+年终奖6w),15薪,加班费按法定标准发放- 福利:公积金按12%缴纳,无宿舍,每月住房补贴2000元,餐补1500元,每年2次体检,免费健身房- 工作强度:996是常态,忙的时候可能到凌晨,团队节奏快,压力大- 其他:平台大,技术氛围浓,晋升路径清晰,对转行选手来说履历加分多,但北京生活成本高,租房压力大offer2:美团(上海)- 客户端开发岗- 薪资:总包38w(基本工资26w+绩效5w+年终奖7w),14薪,加班无加班费,可调休- 福利:公积金按10%缴纳,无宿舍,每月住房补贴1800元,餐补800元,每年1次体检,节日福利丰富- 工作强度:995为主,偶尔周末加班,项目紧急时会通宵,整体压力中等- 其他:公司业务成熟,行业地位稳固,客户端岗位需求稳定,上海生活节奏比北京稍缓,但租房成本仍较高offer3:网易(杭州)- 测试开发岗- 薪资:总包32w(基本工资22w+绩效4w+年终奖6w),13薪,加班较少,无加班费- 福利:公积金按12%缴纳,提供员工宿舍(单人间,前两年免费,第三年按市场价5折),每月餐补1000元,每年1次体检+1次旅游补贴- 工作强度:965为主,几乎无强制加班,团队氛围轻松,摸鱼文化盛行- 其他:杭州生活成本低于北上,宿舍省房租,测试开发岗入门难度低,适合转行过渡,但技术成长速度可能不如开发岗,未来跳槽竞争力未知本人情况:传统工科转行,编程基础一般,想快速提升技术能力,同时也希望工作生活能平衡,未来不确定是否留在一线城市。有没有同款转行选手或互联网前辈给点建议呀?
森七菜:梦到什么说什么属于是
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务