LLM Agent 在多模态任务中如何执行推理?
核心逻辑:跨模态编码→融合理解→多步推理。
- 多模态编码:把图像/音频转成向量,和文本向量融合。
- 跨模态理解:比如“这张图片里的猫是什么品种?”,先编码图像,再结合文本推理出“布偶猫”。
- 多步推理:比如“根据这张 CT 图,判断是否有肺炎”,先分析图像特征,再结合医学知识给出建议。
例子:用户上传美食图问“这道菜的做法是什么?”:
- Agent 识别图像是“宫保鸡丁”→检索菜谱知识库→结合图中食材(鸡肉/花生/干辣椒)→生成详细做法。
ContentListUnionDict 是什么![]()
💡 通俗理解
你可以把 ContentListUnionDict 想象成一个 “万能输入框”:
你可以直接往里面塞一句话(纯文本)。