开源地址:https://github.com/data-infra/cube-studiocube studio一站式机器学习mlops/llmops平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型
部署流程和所需环境在install/readme.md中。 基础环境依赖 docker >= 19.03kubernetes= 1.18 kubectl >=1.18 cfs/ceph挂载到每台机器的 /data/k8s/ 单机 磁盘>=500G 单机磁盘容量要求不大,仅做镜像容器的的存储 控制端机器 cpu>=16 mem>=32G 任务端机器,根据需要自行配置 在一台全新的服务器上,我们需要先安...
Updated 平台单机部署 (markdown) data-infra committed Jan 6, 2025 4649797 Updated 内网离线部署 (markdown) data-infra committed Jan 3, 2025 9bb76c4 Updated 企业版vs开源版 (markdown) data-infra committed Dec 26, 2024 36059d9 ...
多个任务尽量分配到同一个gpu机器上,减少网络通信消耗;对同一pipeline中的不同任务,尽量部署到不同的机器上,避免存在相似任务任务达到单机瓶颈,因为有些任务受机器白名单限制等;对于不同的pipeline,放到算力相对空闲的机器上,平衡集群使用率。
Pipeline的调试多集中于单task的调试,每个task可能是单机或分布式task,对于单机task可以进入命令行直接运行,对于分布式task,可以直接查看全部日志的聚合结果,而不必逐个pod查看,同时可以查看每个task的资源使用情况。在音视频领域,因数据量大,资源利用率的...
另外是亲密度和调度算法的调整:对cpu型任务倾向于把不同的任务分配到不同的cpu机器上避免单机瓶颈;对gpu任务,多个任务尽量分配到同一个gpu机器上,减少网络通信消耗;对同一pipeline中的不同任务,尽量部署到不同的机器上,避免存在相似任务任务达到单机瓶颈,因为有些任务受机器白名单限制等;对于不同的pipeline,放到算力...
模型训练 自动学习 面向非AI背景的用户提供自动学习服务,用户选择某一个场景之后,上传训练数据即可自动开始训练和模型部署,支持示例automl任务流导入导出 模型训练 自定义镜像 面向高级 AI 开发者,提供自定义训练作业(执行环境 + 代码)功能; 模型训练 自动调参 基于单机/分布式自动超参搜索 模型训练 TensorBoard作业 实时...
模型训练自动学习面向非AI背景的用户提供自动学习服务,用户选择某一个场景之后,上传训练数据即可自动开始训练和模型部署,支持示例automl任务流导入导出 模型训练自定义镜像面向高级 AI 开发者,提供自定义训练作业(执行环境 + 代码)功能; 模型训练自动调参基于单机/分布式自动超参搜索 ...
模型训练 自动学习 面向非AI背景的用户提供自动学习服务,用户选择某一个场景之后,上传训练数据即可自动开始训练和模型部署,支持示例automl任务流导入导出 模型训练 自定义镜像 面向高级 AI 开发者,提供自定义训练作业(执行环境 + 代码)功能; 模型训练 自动调参 基于单机/分布式自动超参搜索 模型训练 TensorBoard作业 实时...
在单机上将k8s的kubeconfig文件保存为 cube-studio/install/kubernetes/config,下面的命令换成自己的机器ip cd cube-studio/install/kubernetes/ sh start.sh xx.xx.xx.xx 单机部署参考视频 通过label进行机器管理 开发训练服务机器管理: 对于cpu的train/notebook/service会选择cpu=true的机器 对于gpu的train/notebo...