大型语言模型(LLMs)通过利用思维链(CoT)提示生成中间推理链作为推断答案的依据,已经在复杂推理任务上表现出令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态。本文提出了一种多模态CoT(Multimodal-CoT),将语言(文本)和视觉(图像)模态融合到一个两阶段框架中,该框架将理由生成(Rationale Generation)和答案推理...
目前一些大型语言模型(LLMs , large language model)通过利用思维链(CoT , chain-of-thought)提示来生成中间推理链,作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言情景方面。我们提出了多模态cot,它将语言(文本)和视觉(图像)模态合并到一个两阶段框架中,将基本...
大型语言模型(LLMs)通过利用思维链(CoT)提示生成中间推理链作为推断答案的依据,已经在复杂推理任务上表现出令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态。本文提出了一种多模态CoT(Multimodal-CoT),将语言(文本)和视觉(图像)模态融合到一个两阶段框架中,该框架将理由生成(Rationale Generation)和答案推理...