Data-Juicer的内置算子包括格式化器(Formatters)、映射器(Mappers)、过滤器(Filters)和去重器(Deduplicators)。格式化器负责统一数据格式;映射器用于原地文本编辑;过滤器用于条件过滤文本;去重器用于去除重复样本。这些运算符为LLM数据处理提供了全面的功能。在实际使用中修改config_all.yaml文件 广告 EHD防脱固发洗发水...
# 适用于从源码安装 python tools/dj_install.py --config path_to_your_data-juicer_config_file # 使用命令行工具 dj-install --config path_to_your_data-juicer_config_file 使用pip 安装 运行以下命令用pip安装data_juicer的最新发布版本: pip install py-data-juicer 注意: 使用这种方法安装时,只有data_...
参数<data_path> 为您使用Data-juicer改良后的数据集。 参数 为保存您训练后的模型的路径。 对于1B模型赛道,参赛者需要使用train_scripts/deepspeed_train_1b.sh进行训练。该脚本中,参数bs_per_gpu、num_nodes和nproc_per_node允许参与者根据自己的计算资源进行修改。 默认情况下,训练脚本使用 ZeRO Stage3。
Data-Juicer是一个集成了数据分析和可视化工具的一站式大模型数据处理系统,参赛者使用 data-juicer 来辅助数据分析、筛选和生成,欢迎扩展功能并参与开源项目贡献。 training提供了模型训练和推理的脚本。 train_lora_256.sh或train_lora_512.sh脚本用于模型训练,其中有部分参数允许参赛者修改。
Data-Juicer提供了易于配置的范式,支持零代码和低代码自定义。它包含了一系列可扩展的强大专用工具,如质量分类器、增强的LLM数据采样器和评估器等。Data-Juicer旨在为不同背景和技能水平的用户提供友好的用户体验,提供交互式教程,降低使用门槛。系统优化 Data-Juicer优化了运算符融合和重排序,提高了计算...
在一些jsonl文件中,不同的样本可能有不同的meta字段,甚至同一个meta字段中的数据类型也可能不同,这会导致使用 HuggingFace Dataset 读取数据集失败。 该工具用于将这些jsonl文件中除 text_key 之外的所有元字段序列化为字符串,以方便后续的Data-juicer处理。 数据集处理后,通常需要配合使用 deserialize_meta.py 对其...
魔搭发布了多模态数据处理系统 Data-Juicer,内含100多种高效算子,可大幅提升视频数据处理效率和质量。Data-Juicer 支持文本、图片、音频、视频处理,开发者可自由组合算子,如剪辑视频、增强分辨率等。 此外,魔搭还推出基础类 Sora 模型 lite-Sora,并将举办 “ModelScope-Sora 挑战赛” 鼓励开发者参与类 Sora 模型开发...
使用DataJuicer训练出的pyspark模型,质量打分算子(DLC)能够充分利用pyspark的分布式计算能力,实现了多节点协同处理。鉴于pyspark算子对MaxCompute的适配存在一定难度,MaxCompute的质量打分算子是另一套模型,支持了batch推理。后续我们计划推出DataJuicer非pyspark模型来取代当前的MaxCompute质量打分算子。
使用DataJuicer训练出的pyspark模型,质量打分算子(DLC)能够充分利用pyspark的分布式计算能力,实现了多节点协同处理。鉴于pyspark算子对MaxCompute的适配存在一定难度,MaxCompute的质量打分算子是另一套模型,支持了batch推理。后续我们计划推出DataJuicer非pyspark模型来取代当前的MaxCompute质量打分算子。
本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。