第 29 题：HuggingGPT / JARVIS 的架构设计思想

题目

解释 HuggingGPT/JARVIS 的架构设计思想。

一、核心思想（一句话）

HuggingGPT（JARVIS） 用 LLM 作为“总控”：负责任务规划（把用户请求拆成子任务）、模型/工具选择（为每个子任务选合适的 Hugging Face 模型或工具）、调度与结果融合（按依赖执行、把子结果汇总成最终回复）。即“LLM 当大脑，外部模型与工具当手脚”，实现多模态、多模型协作的 Agent。

二、架构要点

任务规划：用户输入 → LLM 生成任务列表（如 1. 图像描述 2. 情感分析 3. 生成摘要），并标出依赖（如 2 依赖 1 的输出）。
模型/工具选择：对每个子任务，LLM 从可用模型与工具库（如 Hugging Face 上的模型、API）中选出合适的，并给出调用方式与输入来源（上一任务输出或用户输入）。
调度执行：按依赖 DAG 执行——无依赖的先跑，有依赖的等前置完成再跑；调用所选模型/API，收集输出。
结果融合：所有子任务结果汇总给 LLM，由 LLM 生成最终自然语言回复，统一呈现给用户。

数据流：用户请。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。