论文地址:OCR-free Document Understanding Transformer 作者机构:NAVER CLOVA 发表时间:2022 发表情况:ECCV 2022 代码仓库:github.com/clovaai/donu AI 解读 :本文主要介绍了一个名为Donut的新型OCR-free VDU模型。文章指出当前的VDU方法普遍使用OCR引擎来识别文本,但OCR方法存在计算成本高、对语言和文档类型不灵活、OC...
Current Visual Document Understanding (VDU) methods outsource the task of reading text to off-the-shelf Optical Character Recognition (OCR) engines and focus on the understanding task with the OCR outputs. Although such OCR-based approaches have shown promising performance, they suffer from 1) high...
Swin Transformer是一种基于滑动窗口的视觉Transformer模型,具有高效的特征提取能力。 图像被划分成一系列固定大小的图块(patches)。 每个图块通过嵌入层转化为特征向量,然后输入到Swin Transformer。 Swin Transformer通过多层滑动窗口自注意力(Shifted Window Self-Attention)机制提取图像特征。 最终,输出一个包含图像嵌入的...
Donut🍩,Documentunderstandingtransformer, is a new method of document understanding that utilizes an OCR-free end-to-end Transformer model. Donut does not require off-the-shelf OCR engines/APIs, yet it shows state-of-the-art performances on various visual document understanding tasks, such as vi...
Donut是一个用于文档图像通用理解的端到端(即自包含)视觉文档理解(VDU)模型。Donut的架构相当简单,由基于Transformer的视觉编码器和文本解码器模块组成。 Donut不依赖任何与OCR功能相关的模块,而是使用视觉编码器从给定的文档图像中提取特征。接下来的文本解码器将提取的特征映射为子词标记序列,以构建所需的结构化格式。
Donut模型的训练通过结合图像和先前的文本上下文预测下一个单词,进行预训练。利用预训练目标阅读文本与合成数据的直接实现,可以适应不同语言和领域。模型架构包括基于Transformer的视觉编码器与文本解码器,整体过程在图中清晰展示。通过简单的设置,该模型取得了与复杂方法相媲美的性能,甚至在某些测试集上超越...
Donut 🍩, Document understanding transformer, is a new method of document understanding that utilizes an OCR-free end-to-end Transformer model. Donut does not require off-the-shelf OCR engines/APIs, yet it shows state-of-the-art performances on various visual document understanding tasks, such...
12|0(ECCV 2022 Donut) OCR-free Document Understanding Transformer code:https://github.com/clovaai/donut 该工作将OCR中多个子任务都集成到了一个End-to-End的网络中,网络是基于transformer的编解码结构。这应该是第一篇将Transformer 编解码结构应用到整个OCR任务中的工作,包括文档分类、文档信息提取和文档问答...
TextMonkey : An OCR-Free Large Multimodal Model for Understanding Document 摘要 我们推出了 TextMonkey,这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM),包括文档问答 (DocVQA) 和场景文本分析。 我们的方法引入了跨多个维度的增强:通过采用零初始化的转移窗口注意力,我们在更高的输入分辨率下实现...
To address these issues, in this paper, we introduce a novel OCR-free VDU model named Donut, which stands for Document understanding transformer. As the first step in OCR-free VDU research, we propose a simple architecture (i.e., Transformer) with a pre-training objective (i.e., cross-...