大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】!LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型(LLM)的预训练效果需要从多个维度综合考量,涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型(LLM)在监督式微调(Supervised Fine-Tuning, SFT)后的效果,需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型(LLM)在通过RLHF(基于人类反馈的强化学习)后的效果需要从多个维度综合考量,包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时,可以从以下几个关键方面进行评估:
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标,如准确率(Correct)、错误率(Wrong)、失败率(Fail)、BERTScore、ROUGE Score等,以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现,但如何全面地对Agent进行评估却很困难,本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法,结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术,能够有效提升Prompt的质量和生成效果,进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计,可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#
全部评论
mark
点赞 回复 分享
发布于 2025-11-18 20:14 湖北
大佬,求完整资料
点赞 回复 分享
发布于 2025-07-17 21:22 湖南

相关推荐

2025-12-12 09:58
已编辑
门头沟学院 Java
300人+公司,HR+业务主管面(3人)。前一天晚上打电话约面,想看看自己投的是那一版的简历结果让我删了,无八股全实习,问的实习部分我都怀疑他把两个项目搞混了。。。昨晚说让我准备项目展示也没让展示。。。基本凉凉。1.自我介绍2.介绍实习-------实习拷打-----------3.实习中小程序编程不怎么相关的问题怎么处理的(不是很懂想问的点,直接推到leader上了,说是他做的我不懂ing)4.调用的是公司大模型还是外部API5.简历前两条是怎么实现的(确认了一下是传统编程线程池的问题)6.参与人数7.如何沟通项目8.前后端沟通API定义(没get到点API定义有啥好说的怀疑理解错了,答的前端传json后端映射)9.怎么返回10.字段有哪些11.token存在哪(响应头or数据)12.会py那些库,web框架13.为什么用java做选型怎么考虑的为什么不用py----------------------------14.用过什么AI编程工具15.AI提升了多少效率16.对未来两年AI编程的看法-------技术拷打-----------17.Agent独立开发的吗(怎么可能,leader带的)18.Agent从0-1搭建(介绍了一下自己的项目)19.react(不会没学过我以为是Agent底层呢)20.如何评估效果(提示词工程)21.RAG流程22.问RAG除了大模型还用了什么(我之前答了用了通义的embedding模型,不知道此时问的啥,后面他问我没用embedding吗我还听错了说没有。。。。。。。。)---------------------------------------HR--------------23.实习有什么收获24.问工作地的情况25.为啥不考研26.想没想过考研会带来很大提升27.个人优势(没准备)28.毕业的职业规划29.身边有没有很成功的人30.何时到岗31.原公司加不加班,公司可能加班能不能接受32.个人爱好33.闲暇时间干啥(吃饭打游戏)----------------------------34.反问总结:时隔3个月的再一次面试答得很差,对于实习项目不够熟练深入,很多不是自己产出的部分都不了解,问的很基础的一些技术需求没有get到点,导致回答很差像假实习一样。后续:面试后两天OC,约复试
聊聊我眼中的AI
点赞 评论 收藏
分享
2025-12-25 19:07
蚌埠坦克学院 Java
1.自我介绍(拷打实习项目)1.RAG的流程了解吗,比如向量化采用哪个模型来做的,怎么存的文件?2.文件分块怎么做的,基于怎么原则/规范?3.如果基于段落来分块,为什么不选用一个比较大的段落或者一个比较小的句子来分呢,有考虑过过大/过小会造成什么影响吗?4.调用向量化模型的时候,是调的实时的接口还是其他的方法来做的?5.这个接口是自己写的还是直接调用的豆包的SDK?6.豆包有没有提供批量处理的向量化的接口?7.向量化处理时,是每个文本分块分别进行向量化,还是把所有的文本都切分好之后,调一次接口就好了?8.ES检索完之后有没有对检索结果做质量评估呢,有没有通用的测试方法,比如标准数据集?9.你简历提到接口响应时间从800ms到200ms,有关注过影响耗时的核心点是在哪吗?10.在传入的文档数量是固定的情况下,返回的top结果的值不同,对接口耗时有没有影响,影响大不大?11.采用的什么策略来减少RAG的幻觉?12.Kafka 解耦文件上传、处理这块怎么做的?13.Kafka 的分区策略有哪些?默认分区、粘性分区、自定义分区分别是什么?14.有了解过kafka分区的概念吗?15.正常来说,一个topic下是一个分区还是多个分区呢?16.多个分区的好处是什么?17.kafka消费的策略有了解吗?(拷打练手项目)18.你在项目里使用了RabbitMq,有对比过RabbitMq和Kafka的区别和使用场景吗?19.如果要防止数据丢失的话,一般采用的标准方案是什么?20.项目里用到的两级缓存,Redis和Caffeine,缓存一致性怎么做的?21.Canal做MySQL到ES的增量同步的时候,监听的是MySQL的哪个日志?22.除了binlog,还有哪两种日志类型比较常见,分别的使用场景?(拷打轮子)23.为什么WAL这一块要先写日志呢?24.2PL的规则有了解吗?25.2PL加锁和解锁的阶段有没有交叉?26.有了解2PL可能造成哪些问题吗?27.2PL造成的死锁问题怎么解决?28.你用到了LRU策略,它是用来解决什么问题的,有什么优势?(其他)29.了解Linux和shell吗?30.实习的时候的开发环境是基于win还是Linux呢?(场景题)31.公司可能用到第三方的SDK,SDK只提供了静态的方法,要求在注入的时候,用的成员是静态的,但是Spring中@Autowired是用来注入非静态成员的,那我想注入一个静态的变量该怎么做呢?(八股)32.怎么创建一个线程?33.Callable和Runnable的区别是什么?34.使用synchronized时,加在方法上和加在代码块上的区别是什么?35.在synchronized的同步块里,该怎么判断是使用this对象还是使用class对象呢?36.在 Spring Boot 的容器里,一个 Service Bean 是否是单例的,或者说同一个类会不会有多个实例?37.你接触到的数据结构都有哪些?38.有了解过动态规划和分支限界的算法逻辑是什么吗?(手撕)225. 用队列实现栈
点赞 评论 收藏
分享
评论
4
27
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务