b佬

相关推荐

06-24 10:39
已编辑
西安交通大学 人工智能
攻略 🌈【大模型评估全攻略】!LLM七大核心评估维度保姆级拆解💯👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt🔥一、预训练评估评估大型语言模型(LLM)的预训练效果需要从多个维度综合考量,涉及基础语言能力、下游任务表现、知识掌握、推理能力等。🔥二、SFT评估评估大型语言模型(LLM)在监督式微调(Supervised Fine-Tuning, SFT)后的效果,需要结合任务目标、领域特性和模型能力设计多维度的评估体系。🔥️三、RLHF评估评估大型语言模型(LLM)在通过RLHF(基于人类反馈的强化学习)后的效果需要从多个维度综合考量,包括生成质量、安全性、对齐性、任务完成度等。🔥四、数据集评估在评估数据集的质量时,可以从以下几个关键方面进行评估:1. 数据多样性2. 数据平衡性3. 数据完整性4. 数据一致性5. 数据与任务的适合性6. 标注准确性🔥五、RAG评估从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标,如准确率(Correct)、错误率(Wrong)、失败率(Fail)、BERTScore、ROUGE Score等,以全面评估生成答案的质量。🔥六、Agent评估现如今Agent开发工具/框架不断出现,但如何全面地对Agent进行评估却很困难,本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。🔥七、Prompt评估评估Prompt的好坏需要一个全面和多维度的方法,结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术,能够有效提升Prompt的质量和生成效果,进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计,可以实现更自然、更准确、更有效的自然语言。
点赞 评论 收藏
分享
地狱难度😭楼主四月中左右开始做这方面的准备,非计科的,学校里数据结构一点没学过,刷了半个月左右的力扣加八股,面了一个月左右,已成耐面王字节:两次一面挂😭(然后说我面评还不错还要捞我,被我拒了,感觉面了也是没戏)快手:4.11一面 4.25二面 5.9三面 横向挂(挂的时候还鞭我尸,挂完之后说再让我等等,老师们要再讨论一下,讨论完还是给我挂了😡)腾讯:wxg:4.25一面,过了约节后二面,结果节后没算法hc了(被26届的抢了),只有开发hc了,我说算了不搞开发5.15被wxg安全捞了,约了16号面试,结果面试前一小时取消,也是hc被26届抢没了😭5.20被IEG捞了,5.22一面,5.23二面,5.27三面,5.30四面,6.13offer(已拒)华为:笔试免,5.29测评,测评完约了5.29技术交流,约了6.5一面,拒了(华为的HR真的特别特别好,我当时已经收到网易oc了,说不想参与后续面试了,HR说那边可以尽快推进流程,还可以每次面试都告诉我结果,只要过了直接oc,相当于提前给口头offer,下次一定选华为😭,真的是我见过最好的HR姐姐)网易伏羲:5.19一面,5.20二面,5.26三面,5.28 oc,6.3 offer(已接)---入职一周了,组里氛围特别好,mt人也特别好,不卷时长,但工作时大家都很高效(早10晚6点半还有两小时午休,我入职第二天九点半到,发现部门一个人都没有我就知道我来对了😋)
我的OC时间线
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务