第 8 题:大模型的涌现能力(Emergent Abilities)

第 8 题:大模型的涌现能力(Emergent Abilities)

题目

解释大模型的涌现能力(Emergent Abilities),并举例说明。

一、什么是涌现能力?

涌现能力指某些能力在小模型上几乎看不到,但当模型规模(参数量、数据、算力等)达到某个阈值后,在较窄的规模区间内突然出现明显跃升,而且很难用对小模型的平滑外推来预测。

强调三点:

  • 突然性:不是随规模线性变好,而是在某个规模区间内“拐点”式提升。
  • 规模相关:和模型大小、数据、算力强相关,不是单纯调 prompt 或工程能得到的。
  • 外推困难:小模型上的表现无法平滑外推预测大模型会不会有该能力。

面试常问:“涌现是啥?”——可以一句话:随规模突然出现、小模型外推不了的能力。

二、典型例子(要能举出 2–3 个)

  • 少样本 / 零样本学习(ICL):小模型在 prompt 里给几个示例几乎没提升;大到一定规模(如 GPT-3 级别)后,few-shot 甚至 zero-shot 就能显著提升任务表现,即 in-context learning。
  • 链式推理(CoT):小模型“一步步想”的推理很弱;规模上去后,加上“Let's think step by step”等提示,数学/逻辑题正确率明显跃升。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

昨天 17:31
已编辑
南京林业大学 后端工程师
发面经 攒人品面完后第二天挂1. 自我介绍2. 讲一下react和plan-excute-replan的使用场景3. 讲一下react和plan-excute-replan的区别(回答了几个面试官觉得不够又追问,不会了)4. 设计agent的时候怎么能在保证效果的前提下减少token消耗?(不会,随便蒙了几条)5. 思考一下有没有其他的方案,能够减少token消耗?(不会,蒙的是特定领域微调和后训练增强模型能力)6. function call、mcp、skill的区别?7.  skills和rules的区别?(不会)8.  大模型调参过程中经常调两个参数,一个是温度,一个是topK,你怎么理解这两个参数?(不会)9.  redis的hash大key怎么优化?10. redis的hash大key优化后怎么兼容老业务老数据?新业务怎么用优化后的缓存?老缓存删不删?11. 为什么业务实际应用中要避免使用threadlocal?(头一次听说要避免使用threadlocal,不会)12. 事务的特性13. 之前实习中最大的难点是什么?jdk用的什么版本?14. java创建一个对象,虚拟机会有哪些变化?JVM的内存会有哪些变化?15. 垃圾回收的触发条件16. TCP怎么保证数据包一定能到达?17. TCP拥塞控制怎么做的?(具体细节忘了)反问:1. 什么业务?- 业务安全中的内容安全相关,检测视频、音频、文字中的违法行为2. 具体涉及哪些工作?运维和开发占比怎么样?- 简单来说要负责所有事情的研发。大概20%运维。80%开发。大模型来了后之前所有的运维的同学全转开发了。
查看17道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务