core.executor:run:164 - Processing data... 2024-08-12 03:02:15.933 | DEBUG | data_juicer.utils.process_utils:setup_mp:30 - Setting multiprocess start method to 'forkserver' 2024-08-12 03:02:15.945 | WARNING | data_juicer.utils.process_utils:calculate_np:70 - The required cuda memory...
# 用于分布式处理 executor_type:执行器的默认#类型,目前支持“default”或“ray”。 ray_address:auto#Ray 集群的地址。 # 仅用于数据分析 percentiles: [0.25, 0.5, 0.75] # 百分位数用于分析数据集分布 export_original_dataset: false # 是否导出带有统计数据的原始数据集。如果您只需要数据集的统计数据,则将...