图15:WTW数据集样例图 3. Document VQA 3.1 背景介绍 在VQA(Visual Question Answering)任务中,主要针对图像内容进行提问和回答,但是对于文本图像来说,关注的内容是图像中的文字信息,因此这类方法可以分为自然场景的Text-VQA和扫描文档场景的DocVQA,三者的关系如下图所示。 图16: VQA层级 VQA,Text-VQA和DocVQA的示...
结论显示,目前视觉 AI 的常用测试数据集(如MMMU, DocVQA, ChartQA, AI2D等)远不能代表现实生活的使用场景。虽然模型在这些数据集上得分很高,但在实际生活中的表现却相差甚远。 值得一提的是,其中一个数据集MMMU中,有42.9%的问题可以直接通 发布于 2024-07-21 22:42・IP 属地北京 ...