大模型海文

2025-06-24 10:39 已编辑西安交通大学人工智能发布于湖南

关注

大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】！LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型（LLM）的预训练效果需要从多个维度综合考量，涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型（LLM）在监督式微调（Supervised Fine-Tuning, SFT）后的效果，需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型（LLM）在通过RLHF（基于人类反馈的强化学习）后的效果需要从多个维度综合考量，包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时，可以从以下几个关键方面进行评估：
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标，如准确率（Correct）、错误率（Wrong）、失败率（Fail）、BERTScore、ROUGE Score等，以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现，但如何全面地对Agent进行评估却很困难，本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法，结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术，能够有效提升Prompt的质量和生成效果，进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计，可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#

全部评论

推荐最新楼层

大角牛向前冲958

门头沟学院算法工程师

mark

点赞回复分享

发布于 2025-11-18 20:14 湖北

喜欢拱白菜的小白菜在求职

湖南大学机器学习

大佬，求完整资料

点赞回复分享

发布于 2025-07-17 21:22 湖南

04-07 00:05

广西大学算法工程师

淘天 AI应用开发一面

1. 先做一个简短的自我介绍，重点讲你和 AI 应用开发最相关的经历2. 讲一下你做的这个Agent项目介绍一下核心链路一般是用户输入问题后，先做意图识别，再判断是走直接生成、知识检索还是工具调用。技术上可以拆成接入层、编排层、检索层、模型层和观测层。编排层负责 Prompt 模板、上下文管理和工具路由；检索层负责文档切片、向量检索、关键词检索和重排；模型层负责对接通用大模型和总结模型；观测层负责 trace、耗时、召回质量和最终答案质量。 public Answer handle(QueryReq req) { Intent intent = intentService.detect(req...

AI-Agent面试实战...

点赞评论收藏

分享

今天 08:50

广西大学算法工程师

作业帮 AI Agent开发一面

1. 自我介绍2. Qwen3.5 这类新一代模型，如果不只停留在“Transformer 变体”更有含金量的讲法不会只说它是 Decoder-only，而是会落到训练稳定性、推理效率和长上下文适配这三条线上。比如归一化方式、注意力结构、RoPE 扩展策略、GQA 对 KV cache 的影响、SwiGLU 对表达能力的提升，以及 tokenizer 和多语种兼容设计。面试官真正想听的是这些结构选择为什么出现，它们解决了什么具体问题，而不是模块名背诵。如果要再深一点，可以顺手带出工程后果。比如 GQA 不是为了论文好看，而是为了在长生成场景下降 KV cache 占用；长上下文扩展也不是简单把...

AI-Agent面试实战...

点赞评论收藏

分享

03-30 20:02

朝阳社区学院 Java

大三，双非一本JAVA，找到个上海日常实习，一天两张，害，感觉好少，还要我转go，还好有cursor，几下就搞定，现在也是接触到了ai agent的工作内容了

java_xiaoj...：两张是两百块吗

点赞评论收藏

分享

03-23 19:21

大连海事大学 Java

跟字节hr发推掉面试结果被打电话了

上周三约了字节的这周一晚上的面试，对应的hr加我微信了当时，第二天我就考虑了准备再做新项目转agent开发所以给这个hr说取消了，结果今天字节打电话问我为什么没有面试，这怎么办是不是面评完蛋了

给个二面行不行：都没面哪来面评填写，没事的

点赞评论收藏

分享

04-12 12:11

南方科技大学 Java

携程 4.12 笔试

Q1 #include <cstdio> #include <iostream> using namespace std; int main() { int t; scanf("%d", &t); for (int i = 0; i < t; i++) { int n; scanf("%d", &n); if (n <= 3) { printf("-1\n"); } else if (n % 2 == 0) { printf("%d %d\n",n, n); } ...

点赞评论收藏

分享

评论

4

27

招聘动态

米哈游2026校园招聘

应届生春招&全年实习生专项

招商银行信用卡中心

2027届暑期训练营

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 父母问你工作找得怎么样，怎么回 #

5184次浏览 78人参与

# 面试被问期望薪资时该如何回答 #

389213次浏览 2172人参与

# 厦门银行科技岗值不值得投 #

19528次浏览 427人参与

# 从投递到OC，你用了多久 #

6593次浏览 54人参与

# 想从事Agent应该学习哪些技术？ #

1092次浏览 34人参与

# 哪一刻你突然觉得实习“有点值了” #

5243次浏览 48人参与

# 什么人最适合大厂？ #

3107次浏览 31人参与

# AI时代还有必要刷leetcode吗？ #

1298次浏览 24人参与

# 有哪些公司在面试时考察AICoding？ #

1928次浏览 26人参与

# 哪些公司面试还在问八股？ #

1822次浏览 35人参与

# HR面都在聊什么？ #

1900次浏览 29人参与

# 一人一道大厂面试题 #

131313次浏览 1326人参与

# 你的秋招第一面感觉怎么样 #

146215次浏览 814人参与

# 哪些公司一直卡在简历筛选 #

109108次浏览 377人参与

# 总结:哪家公司最喜欢泡池子 #

170589次浏览 614人参与

# 拿到offer之后，可以做些什么 #

106313次浏览 514人参与

# 计算机有哪些岗位值得去？ #

393740次浏览 2855人参与

# 春招至今，你收到几个面试了？ #

144448次浏览 1640人参与

# 说说你知道的学历厂 #

404768次浏览 1446人参与

# Agent面试会问什么？ #

45195次浏览 1553人参与

# 一人分享一个skill #

12123次浏览 252人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务