Data-Juicer在模块解耦、提供抽象和广泛的函数、提供易用性等方面进行了优化。Data-Juicer通过解耦传统上紧密耦合的组件,实现了更高级别的抽象和模块化。它提供了50多个内置运算符和专用工具,以满足LLM预训练和微调的多样化需求。此外,Data-Juicer还提供了丰富的内置工具,支持扩展和定制。交互式教程进一步降低了使用门槛...
data-juicer是一个一站式数据处理系统,旨在为大语言模型 (LLM) 提供更高质量、更丰富、更易“消化”的数据,是阿里巴巴集团的研究人员提出的系统,它犹如一位数据魔法师,能够高效生成数据配方,探索不同数据的组合可能性,并评估其对LLM性能的影响。 广告 拓竹3D打印机A1大尺寸自动调平智能校准FDM高速家用多 拼多多 ...
Data-Juicer与LLM训练、评估和分布式计算生态系统无缝集成,为LLM的数据中心研究提供了强大支持。概述 Data-Juicer系统采用细粒度的数据处理流程抽象,内置了多种运算符,支持数据的格式化、映射、过滤和去重。通过集成可视化和自动评估功能,形成了数据处理和LLM训练的闭环。它与LLM训练、评估和分布式计算生态系...
面向多模态数据与模型协同开发,近日 Data-Juicer团队构建了开源沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在 VBench文生视频排行榜取得了新的榜首! 图二:Data-Juicer 沙盒实验室概览 多模态 AI 发展出了两条相对分离的路线:model-centric 和 data-centric,导致了协同开发的潜能未充分发挥,...
data_juicer demos docs imgs sphinx_doc BadDataExhibition.md BadDataExhibition_ZH.md DJ_SORA.md DJ_SORA_ZH.md DeveloperGuide.md DeveloperGuide_ZH.md Distributed.md Distributed_ZH.md Operators.md RecipeGallery.md RecipeGallery_ZH.md Sandbox-ZH.md ...
魔搭发布了多模态数据处理系统 Data-Juicer,内含100多种高效算子,可大幅提升视频数据处理效率和质量。Data-Juicer 支持文本、图片、音频、视频处理,开发者可自由组合算子,如剪辑视频、增强分辨率等。 此外,魔搭还推出基础类 Sora 模型 lite-Sora,并将举办 “ModelScope-Sora 挑战赛” 鼓励开发者参与类 Sora 模型开发...
Use saved searches to filter your results more quickly Cancel Create saved search Sign in Sign up Reseting focus {{ message }} chg0901 / data-juicer Public forked from modelscope/data-juicer Notifications You must be signed in to change notification settings Fork 0 Star ...
data-juicer 是一个开源的数据处理系统... data-juicer 是一个开源的数据处理系统,旨在提供高质量、丰富、易于大型语言模型消化的数据。地址: 网页链接
automatic evaluation capabilities, Data-Juicer enables a timely feedback loop to accelerate data processing and gain data insights. To enhance usability, Data-Juicer provides out-of-the-box components for users with various backgrounds, and fruitful data recipes for LLM pre-training and post-tuning ...
开发套件 本次比赛为data-centric竞赛,为了比赛的公平性,参赛者需基于Data-Juicer系统进行数据处理或二次开发。参赛者可使用Data-Juicer中已有的处理算子与工具,或者开发新的处理算子与工具。最终的数据处理流程需要能通过处理配置文件和工具调用脚本的形式组织,自动化实现处理过程。更多细节详见提交指南。