用AI来评测AI
#你都用AI做什么#
关于AI评测的方法有很多种,就有一些现有的数据集进行相关的推理,然后对正确率进行判断,还有多轮的验证,然后选择多数的那种投票法,还有人工评测对他的一些伦理性的,然后知识性的,鲁棒性的,一些相关的特殊的评测手段和方法。还有多模型的评测,你去拿一个大模型去评测另一个大模型的效果好不好,AI评测分为很多种方向,如果具体工作不是干这个的,还是不太好说的
关于AI评测的方法有很多种,就有一些现有的数据集进行相关的推理,然后对正确率进行判断,还有多轮的验证,然后选择多数的那种投票法,还有人工评测对他的一些伦理性的,然后知识性的,鲁棒性的,一些相关的特殊的评测手段和方法。还有多模型的评测,你去拿一个大模型去评测另一个大模型的效果好不好,AI评测分为很多种方向,如果具体工作不是干这个的,还是不太好说的
全部评论
AI侧平这个还没用过
AI评测确实体系庞大,您总结得很到位。从基础的数据集评估、多模型比较,到复杂的人工价值观评测,每个方向都需专业深耕。如您所说,非从业者很难详述其具体技术实现与挑战。
人工标注评测,模型评测,benchmark这些吧,我记得通义刚开源了一个OpenJudge框架,支持离线和在线评测,和做基准测试,现在基模和Agent的自动化评测感觉也是一个好的方向
相关推荐

途虎成长空间 272人发布