export DATA_JUICER_ASSETS_CACHE="/data/weijie/datajucier_cache/assets" 第三步 在末尾查看支持的数据处理算子 Data-Juicer中的算子分为以下 5 种类型。 第四步 编写数据处理的配置文件 vim configs/demo/my_process.yaml # 可以参考项目提供的配置文件做参考: configs/demo/process.yaml 举例:configs/demo/pr...
Data-Juicer的内置算子包括格式化器(Formatters)、映射器(Mappers)、过滤器(Filters)和去重器(Deduplicators)。格式化器负责统一数据格式;映射器用于原地文本编辑;过滤器用于条件过滤文本;去重器用于去除重复样本。这些运算符为LLM数据处理提供了全面的功能。在实际使用中修改config_all.yaml文件 广告 EHD防脱固发洗发水...
魔搭发布了多模态数据处理系统 Data-Juicer,内含100多种高效算子,可大幅提升视频数据处理效率和质量。Data-Juicer 支持文本、图片、音频、视频处理,开发者可自由组合算子,如剪辑视频、增强分辨率等。 此外,魔搭还推出基础类 Sora 模型 lite-Sora,并将举办 “ModelScope-Sora 挑战赛” 鼓励开发者参与类 Sora 模型开发。
该计划涵盖了数据处理工具、多模态数据集、类Sora基础模型、训练推理工具等一站式工具链,为类Sora模型的开发提供支持。其中,魔搭发布了行业首个开源的多模态数据处理系统Data-Juicer,包含100多种高效算子,可显著提升视频数据处理的效率和质量。 和讯自选股写手 风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的...
我们提出的一种“探测-分析-细化”工作流,通过在最先进的 LLaVA-like 和 DiT-based 模型上的大量实践,显著提升了图文和视频文数据集的质量,并取得了更先进的模型性能。我们还通过在 Data-Juicer 算子上全方面的基准测试,分析并提供了丰富的数据质量、多样性与模型行为之间的深入洞察。
线下赛将会同时考虑选手合成数据方法的速度,同样以官方提供的合成算子速度为 baseline 计算相对提升,并与评测任务的平均提升得分共同决定最终名次。假设评测任务的平均提升得分为M倍,合成数据方法的平均速度提升得分为 N 倍,则按照 M 按 0.02 区间进行分桶后,桶内按照 M*N 的方式进行得分计算排名。
在data_juicer/ops/filter/ 目录下创建一个新的算子文件 text_length_filter.py,内容如下: 因为它是一个 Filter 算子,所以需要继承 base_op.py 中的Filter 基类,并用 OPERATORS 修饰以实现自动注册。 import sys from jsonargparse.typing import PositiveInt from data_juicer.utils.constant import Fields, Sta...
本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。
本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。
所以我们使用我们的 Data-Juicer 来完善这些数据集,并尝试将它们提供给 LLM 以获得更好的性能。 我们使用简单的 3-σ 规则来设置每个数据处理菜谱中的算子的超参数。 完善前后的预训练数据集 数据子集完善前的样本数目完善后的样本数目样本保留率配置链接数据链接来源 arXiv 1,724,497 1,655,259 95.99% red...