首页 / 大厂算法岗

#

大厂算法岗

#

8048次浏览 198人互动

此刻你想和大家分享什么

热门最新

2025-06-24 10:39

已编辑

西安交通大学人工智能

大模型面试 | 大模型评估全攻略

攻略 🌈【大模型评估全攻略】！LLM七大核心评估维度保姆级拆解💯👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt🔥一、预训练评估评估大型语言模型（LLM）的预训练效果需要从多个维度综合考量，涉及基础语言能力、下游任务表现、知识掌握、推理能力等。🔥二、SFT评估评估大型语言模型（LLM）在监督式微调（Supervised Fine-Tuning, SFT）后的效果，需要结合任务目标、领域特性和模型能力设计多维度的评估体系。🔥️三、RLHF评估评估大型语言模型（LLM）在通过RLHF（基于人类反馈的强化学习）后的效果需要从多个维度综合考量，包括生成质量、安全性、对齐性、任务完成度等。🔥四、数据集评估在评估数据集的质量时，可以从以下几个关键方面进行评估：1. 数据多样性2. 数据平衡性3. 数据完整性4. 数据一致性5. 数据与任务的适合性6. 标注准确性🔥五、RAG评估从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标，如准确率（Correct）、错误率（Wrong）、失败率（Fail）、BERTScore、ROUGE Score等，以全面评估生成答案的质量。🔥六、Agent评估现如今Agent开发工具/框架不断出现，但如何全面地对Agent进行评估却很困难，本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。🔥七、Prompt评估评估Prompt的好坏需要一个全面和多维度的方法，结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术，能够有效提升Prompt的质量和生成效果，进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计，可以实现更自然、更准确、更有效的自然语言。

点赞评论收藏

分享

2025-06-09 11:17

已编辑

门头沟学院算法工程师

6000字长文：一份来自2025届的大模型/搜广推秋招经验总结

前言最近这段时间，2026届的各位佬们应该差不多都暑期实习入职了期待大家都能在秋招取得好的结果没有找到满意暑期实习的也别气馁，感觉最近秋招提前批应该快开始了，如果实在来不及了，可以先准备秋招提前批了~话说回来，其实我是一位2025届的学生，两年半学制，一月份毕业，目前校招已经入职快半年，马上面临转正了。大家可以从我的主页看到，去年暑期实习和秋招，我其实都更新了很多很多面经。秋招结束后，牛客这边基本就没有再经营了，也没有新的产出，这是因为我已经搬到了别的平台，目前所有平台都在另一边更新（可能很多人已经刷到过）某天打开牛客（很久没打开了）发现私信有几十条，问题都差不太多，无非就是选offer、问学...

小黄0215：哇我之前在xhs刷到过这些总结，你是不是叫KI，头像和这个一样，还有CSDN也刷到过

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务