Data-Juicer在模块解耦、提供抽象和广泛的函数、提供易用性等方面进行了优化。Data-Juicer通过解耦传统上紧密耦合的组件,实现了更高级别的抽象和模块化。它提供了50多个内置运算符和专用工具,以满足LLM预训练和微调的多样化需求。此外,Data-Juicer还提供了丰富的内置工具,支持扩展和定制。交互式教程进一步降低了使用门槛...
data-juicer是一个一站式数据处理系统,旨在为大语言模型 (LLM) 提供更高质量、更丰富、更易“消化”的数据,是阿里巴巴集团的研究人员提出的系统,它犹如一位数据魔法师,能够高效生成数据配方,探索不同数据的组合可能性,并评估其对LLM性能的影响。 广告 拓竹3D打印机A1大尺寸自动调平智能校准FDM高速家用多 拼多多 ...
面向多模态数据与模型协同开发,近日 Data-Juicer团队构建了开源沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在 VBench文生视频排行榜取得了新的榜首! 图二:Data-Juicer 沙盒实验室概览 多模态 AI 发展出了两条相对分离的路线:model-centric 和 data-centric,导致了协同开发的潜能未充分发挥,...
Data-Juicer与LLM训练、评估和分布式计算生态系统无缝集成,为LLM的数据中心研究提供了强大支持。概述 Data-Juicer系统采用细粒度的数据处理流程抽象,内置了多种运算符,支持数据的格式化、映射、过滤和去重。通过集成可视化和自动评估功能,形成了数据处理和LLM训练的闭环。它与LLM训练、评估和分布式计算生态系...
尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。
尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。
魔搭发布了多模态数据处理系统 Data-Juicer,内含100多种高效算子,可大幅提升视频数据处理效率和质量。Data-Juicer 支持文本、图片、音频、视频处理,开发者可自由组合算子,如剪辑视频、增强分辨率等。 此外,魔搭还推出基础类 Sora 模型 lite-Sora,并将举办 “ModelScope-Sora 挑战赛” 鼓励开发者参与类 Sora 模型开发...
欢迎进入第三届 Data-Juicer 数据挑战赛:“ModelScope-Sora 文生视频大模型数据挑战赛”。 👉 https://tianchi.aliyun.com/competition/entrance/532219 亲爱的数据导演们,继先前大模型数据混合的竞赛盛宴之后,是时候显现您对影像编排的独到见解了! 本次比赛的核心任务是在给定的计算量约束下,通过对视频多模态数据...
data-juicer 是一个开源的数据处理系统... data-juicer 是一个开源的数据处理系统,旨在提供高质量、丰富、易于大型语言模型消化的数据。地址: 网页链接
Use saved searches to filter your results more quickly Cancel Create saved search Sign in Sign up Reseting focus {{ message }} chg0901 / data-juicer Public forked from modelscope/data-juicer Notifications You must be signed in to change notification settings Fork 0 Star ...