CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个label: 正文标题图片图片标题表格表格标题页眉页脚注释公式 TextTitleFigureFigure captionTableTable captionHeaderFooterReferenceEquation 共包含5000张训练集和1000张验证集,分别在train和val目录下。每张图片对应一个同名的标注文件(.json)。
数据集地址:PubLayNet|文档分析数据集|计算机视觉数据集数据集:CDLA更新时间:2024-05-08数据集内容:CDLA是一个面向中文文献类(论文)场景的中文文档版面分析数据集。该数据集包含5000张训练集和1000张验证集,分布在train和val目录下。数据集涵盖10个label,包括正文、标题、图片、图片标题、表格、表格标题、页眉、页脚...