烤点老白薯

01-11 15:56 北京体育大学测试工程师发布于北京

关注

用AI来评测AI

#你都用AI做什么#
关于AI评测的方法有很多种，就有一些现有的数据集进行相关的推理，然后对正确率进行判断，还有多轮的验证，然后选择多数的那种投票法，还有人工评测对他的一些伦理性的，然后知识性的，鲁棒性的，一些相关的特殊的评测手段和方法。还有多模型的评测，你去拿一个大模型去评测另一个大模型的效果好不好，AI评测分为很多种方向，如果具体工作不是干这个的，还是不太好说的

全部评论

推荐最新楼层

嵌入式的小白

西安理工大学嵌入式软件开发

AI侧平这个还没用过

1 回复分享

发布于昨天 14:38 陕西

长沙学院 Java

AI评测确实体系庞大，您总结得很到位。从基础的数据集评估、多模型比较，到复杂的人工价值观评测，每个方向都需专业深耕。如您所说，非从业者很难详述其具体技术实现与挑战。

点赞回复分享

发布于 01-14 15:07 云南

快手_MLOps(实习员工)

人工标注评测，模型评测，benchmark这些吧，我记得通义刚开源了一个OpenJudge框架，支持离线和在线评测，和做基准测试，现在基模和Agent的自动化评测感觉也是一个好的方向

点赞回复分享

发布于 01-13 17:38 北京

01-10 10:05

湖南文理学院 C++

你最经典的手撕题！

🧩 面试手撕题：判断回文链表题目描述：给定一个单链表的头节点 head，判断该链表是否为回文链表。如果是返回 true，否则返回 false。示例：输入：1 -> 2 -> 2 -> 1输出：true输入：1 -> 2输出：false💡 面试官想考什么是否熟悉 链表基本操作是否能想到 O(1) 额外空间 的做法边界条件是否考虑全面🧠 解题思路（适合白板讲）用 快慢指针 找到链表中点反转后半部分链表从头和中点同时向后比较有不等就返回 false✍️ 代码示例（Java / C++ / Python 思路通用） class ListNode: def __init__...

点赞评论收藏

分享

2025-12-24 14:32

门头沟学院项目专员

弊大于利吧 实习主要还是为了了解工作流程，学习该类行业的经验，同时借助平台优势去不断锻炼自己。实习期间无所事事那么在这笔实习中完全属于浪费了自己的时间，实习中的工资其实并不重要，这个阶段本质是为了学习，是为了提升自己，增强自己的竞争力罢了。

实习没事做是福还是祸？

点赞评论收藏

分享

01-10 10:00

湖南文理学院 C++

复盘去年，立下今年的小目标

🏳️ 去年的 Flag 回顾（有倒的，也有没倒的）1️⃣ 去年说要“不再熬夜”👉 实现了一半。工作日比以前规律了，但一忙起来还是会被打回原形。至少现在知道：熬夜真的会透支第二天。2️⃣ 说要持续学习一项技能👉 没做到“持续”，但开始了。学得断断续续，不过比“从没开始”要强，这算是一个及格分。3️⃣ 想把生活和工作分得更开一点👉 比去年好。学会了下班后不立刻回消息，也不再对所有事情都“立刻回应”。🎯 今年的小目标（不贪多，但求稳）1️⃣ 身体优先保证基本作息每周至少运动 2 次不是为了自律人设，只是不想再被身体反噬。2️⃣ 把一件事长期做下去写点东西 / 记录生活不追求输出质量，只追求...

点赞评论收藏

分享

01-15 16:34

门头沟学院项目专员

现在越来越觉得对于大多数人来讲AI的快速发展让我们越来越懒得思考了，人都是有惰性的，贪图享乐是人的天性，不同的是有一部分人会将其用别的方式转移，但大多数人并没有能够克制自己的勇气和毅力，所以最终的结果就是越发堕落了

AI让你的思考变深了还是...

点赞评论收藏

分享

2025-12-31 15:00

途虎_招聘专员

📈一年连破两次千店，我们的工场店全国突破8000家啦！

你的毕业第一站，可以更不一样！来途虎养车，加入一个正在高速发展的行业头部平台—— 全国8000+工场店，覆盖超1900个县城一年连破两次千店，我们正驶入发展快车道在这里，你将直接直接面对亿级用户在实战中接触业务全链条和行业专家一起工作 8000店只是起点我们正在创造更大的未来而你，正是我们寻找的“关键变量”加入我们开启你的高速成长之路

途虎成长空间 272人发布

点赞评论收藏

分享

评论

3

收藏

招聘动态

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你最近因为什么迷茫？ #

16945次浏览 227人参与

# 你有哪些缓解焦虑的方法？ #

46906次浏览 879人参与

# 上班以后，你还有哪些坚持的爱好？ #

2473次浏览 63人参与

# 实习怎么做才有更好的产出 #

3835次浏览 94人参与

# 领导做过最不靠谱的事 #

6198次浏览 104人参与

# AI coding的好用工具分享 #

5692次浏览 121人参与

# 实习生工资多少才算正常？ #

5280次浏览 97人参与

# 找工作以来，你最看不惯__ #

4236次浏览 91人参与

# 你给AI提过哪些离谱的需求？ #

2412次浏览 78人参与

# 你都在哪些场所面过试？ #

5918次浏览 93人参与

# 哪些公司开春招了？ #

2604次浏览 37人参与

# 一起聊字节 #

241218次浏览 1017人参与

# 工作压力大怎么缓解 #

132823次浏览 1147人参与

# 非技术er求职现状 #

130057次浏览 785人参与

# 研究所笔面经互助 #

110669次浏览 567人参与

# 你觉得第一学历对求职有影响吗？ #

222598次浏览 1232人参与

12180次浏览 47人参与

# 秋招有哪些公司要求提前实习 #

103446次浏览 548人参与

# 上班到公司第一件事做什么？ #

133605次浏览 922人参与

# 职场新人生存指南 #

497941次浏览 9526人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务