第 57 题:多模态提示(Multimodal Prompting)及设计要点
第 57 题:多模态提示(Multimodal Prompting)及设计要点
题目
什么是多模态提示(Multimodal Prompting)?设计要点是什么?
一、什么是多模态提示?
多模态提示 指 prompt 中除文本外还包含其他模态的输入(如图像、音频、视频),以及可选的跨模态指令(如“根据上图回答问题”“描述这段音频”);模型需同时理解文本与这些模态,并生成符合要求的输出。多模态大模型(如 GPT-4V、Gemini、Claude 3)支持“文本+图像”等组合,多模态提示即针对这类能力的设计。
二、设计要点
- 模态顺序与位置:明确“先图后文”“先文后图”或“文图交错”在模型中的效果;通常图像与相关说明放在一起,避免图与题不对应。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

查看3道真题和解析