paper pdf:arxiv.org/pdf/2403.0552 摘要: 我们推出的 DeepSeek-VL 是一个开源的视觉语言(VL)模型,专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开: 我们努力确保数据的多样性和可扩展性,并广泛涵盖现实世界的各种场景,包括网页截图、PDF、OCR、图表和基于知识的内容,旨在全面呈现实际语境...
文档光学字符识别(OCR)数据:我们还构建了一个英中文档OCR数据集,包括来自arXiv的文章和大量英文及中文电子书与教育材料,旨在识别真实世界场景中文档级别的字符。 场景文本OCR数据:包含多个公共数据集,增强模型从环境中融合文本的图像识别和提取能力。 仅文本语料库:用于保持模型在语言中心任务上的熟练度,本研究使用了与...
这将使我们能够创建一个单一的、无OCR的端到端管道,从而在复杂文档中表现出强大的通用性。 为了训练和评估我们的模型,我们将使用SROIE数据集。SROIE提供了1000张扫描的收据图像,每张图像都标注了关键实体,如: 公司:商店或企业的名称 日期:购买日期 地址:商店的地址 总计:支付的总金额 来源:https://arxiv.org/pdf...
TinyStories(Eldan和Li,2023年)和Phi系列(Gunasekar等人,2023年;Li等人,2023年b)的启示强调,数据质量对于有效的模型学习至关重要,而LLM使我们能够通过数据操作主动 "设计 "模型学习的内容,从而大大提高模型训练的有效性和可控性。截至 2024 年 6 月,Hugging Face1 上有超过 300 个数据集标记为 "合成",许多主流...
The Pile由EleutherAI开发的一个大型语言模型训练数据集,包含多种数据源,例如GitHub、PubMed、ArXiv等。这个数据集旨在提供多样化且广泛的文本,用于训练语言模型。 MNBVC 里屋社区大规模中文语料集。对标chatGPT训练的40T数据,目前已有33065GB (截止2024年5月30日) 大语言模型微调数据集 指令微调数据集用于进一步微调预...
论文地址:https://arxiv.org/pdf/2305.08322v1.pdf github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:...
论文链接: https://arxiv.org/abs/2306.13549 收集最新论文的相关GitHub: https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models 一、简介 近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多...
PDF文件最初是用OCR工具处理成文本。所有的问题随后被解析--在可能的情况下自动解析,否则由团队手动解析--变成结构化格式,即 "问题列表"。对于具有复杂数学符号的科目,如STEM类别中的许多科目,手动将其转换为标准的LATEX格式。 C-Eval中的所有问题都经过处理,正好包括四个选择。大部分的原始问题伴随着四个选择,还...
链接:https://arxiv.org/abs/2407.12821 2、FlowMind:使用 LLM 自动生成工作流 FlowMind: Automatic Workflow Generation with LLMs 链接:https://arxiv.org/abs/2404.13050 3、StateFlow:通过状态驱动的工作流增强 LLM 任务解决 StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows https:...
最后,他们通过测量平均光流来过滤静态场景,并使用OCR去除含有过量文本的片段。 2023年12月:VideoCrafter-v2 论文包含了一个非常详细的训练过程和作者如何克服使用高质量生成图像的低质量视频的限制的描述。 模型的结构非常简单,没有帧插值或上采样,与VideoCrafterV1和其他T2V ldm类似的架构,结合了从SD 2.1初始化权重...