大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】!LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型(LLM)的预训练效果需要从多个维度综合考量,涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型(LLM)在监督式微调(Supervised Fine-Tuning, SFT)后的效果,需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型(LLM)在通过RLHF(基于人类反馈的强化学习)后的效果需要从多个维度综合考量,包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时,可以从以下几个关键方面进行评估:
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标,如准确率(Correct)、错误率(Wrong)、失败率(Fail)、BERTScore、ROUGE Score等,以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现,但如何全面地对Agent进行评估却很困难,本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法,结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术,能够有效提升Prompt的质量和生成效果,进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计,可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#
全部评论
大佬,求完整资料
点赞 回复 分享
发布于 07-17 21:22 湖南

相关推荐

1️⃣抖音一面1、聊项目。2、AUC的两种公式是?你能证明这两种等价的吗?3、BERT-CRF中,为什么要加CRF?好处是?4、self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?5、reinforce属于on-policy还是off-policy?为什么?6、reinforce带上baseline好处是?reinforce的loss写一下?7、策略梯度会推导吗?简单写一下?8、代码题(代码题一般别着急写,先跟面试官说下思路,确定了再写):lc 46,全排列(lc表示leetcode,下同)。lc 73,矩阵置0。2️⃣抖音二面1、介绍项目。2、知识蒸馏有哪几种?你觉得哪种效果最好?3、nlp的数据增强方法,主要有哪几种?每一种举个例子?4、分类的损失函数为什么是交叉熵而不是mse?5、BERT对输入文本的长度有什么限制,为什么要限制长度呢?6、BigBird里面有哪几种注意力机制?相比原始transformer的self-attention的优势?7、场景题:如何根据拼多多的商品数量,估计淘宝的商品数量?8、给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量。9、代码题:n皇后问题。3️⃣抖音三面‍1、简单聊项目。2、CRF和HMM区别?CRF为什么比HMM效果好?3、如果BERT词表很大,比如vocab_size达到几百万,怎么办?4、快速手写一些transformer的mha(多头注意力),伪代码意思一下就行。5、为什么对比学习中,temperature很小,而知识蒸馏的temperature比较大?6、你觉得在抖音买东西,和淘宝、拼多多他们的区别是?(我没在抖音买过,就只能现场编。)7、你最近看到过哪些paper?简单介绍下?8、你觉得自己有那些优缺点?平时喜欢怎么缓解压力?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
点赞 评论 收藏
分享
1.自我介绍,拷打项目为什么用多智能体不用单智能体了解哪些大模型应用框架(你项目中的竞品)rag知识库是怎么搭建的,怎么进行的分片操作如何让大模型更加理解医学名词(一般大模型理解不了医学名词)知识库的大小,我答了一个很大的数,问接口速度问题(一脸懵逼,没考虑过,只考虑过rag层面的优化)询问rag评估(孩子寄了我没做,但是我背过),问具体评估数值(🐔没做过,瞎逼逼了一个数字)优化空间从项目拷打中看的出来面试官水平确实比较高,而且是个声音很好听的小哥哥2.写算法,尽然是acm格式,幸好函数写出来了,可惜的是输入输出没写出来,链表的输入输出真的难3.反问环节:做什么业务,不足之处
梗小姐:佬,你投的不会是这个吧。 wxg-微信支付-模型组 主要工作方向: 1.利用支付数据、社交数据等制定安全策略进行数据挖掘、特征工程 2.前沿模型研究:利用LLM代替xgboost等传统风控模型 本次实习生,可能的工作:使用司内大模型平台进行agent构建,集成到企业微信机器人里,作为内部工具以消息告警等形式提醒产品同学,其实还是偏开发。 掌握python和java应该够用了。 需要掌握的基本知识 简单的开发技能 agent基本原理(重点:function call,可能会被问了解mcp吗) LLM基本知识(训练、微调和部署推理,偏工程化),最好再掌握一些RAG知识
查看14道真题和解析
点赞 评论 收藏
分享
评论
1
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务