Alluxio支持多种协议,如SPOSIX、HDFS等,以及Java File API和REST API,使得AI/ML训练引擎(如Pytorch、Ray、TensorFlow)和查询引擎(如Presto、Spark、Trino)能够与底层存储无缝对接。特性三:多云统一视图功能。无论底层存储是HDFS、Ceph还是各云厂商的对象存储,Alluxio都能为用户提供一个统一的访问界面。通过Alluxio...
Alluxio 能够透明地支持多种 AI 计算框架,对用户 AI 应用无侵入性,并通过自研的高性能 FUSE 技术,使用户可以像操作本地磁盘一样读写数据,无需感知 Alluxio 缓存层的存在。其次,Alluxio 支持广泛的云基础设施和存储系统,包括公有云、私有云、混合云以及主流的对象存储和HDFS系统,同时利用 SSD 或 RAMFS 提供本地 ...
Alluxio Fuse 使用 GPU 机器上的大量磁盘(根据机型不同,每台 GPU 机器可分配 1TB-10TB 的磁盘)来做本地缓存,Alluxio Fuse 的性能完全由本地缓存保障,Alluxio 集群只负责提供元数据,以及从 HDFS 读取数据分发到每一个 Alluxio Fuse 节点上。 从Alluxio Fuse 的部署架构可以看到,在我们的场景中,Alluxio Fuse 强依...
Fuse 属于一个用户态的软件系统,由两部分组成:内核模块以及用户空间守护进程。在内核模块的支持下,开发者只需要实现标准的 POSIX 协议接口就可以拥有一个自定义的文件系统。右边这幅图是一个 Fuse 服务的架构图,当用户在被挂载的目录执行文件操作时,就会触发系统调用,VFS 将这些操作路由至 Fuse driver,Fuse driver ...
通过Alluxio-FUSE 读取数据以支持训练任务; 用户数据处理也在 Alluxio-FUSE 中进行,方便数据回写到 HDFS。 再来看一下 AI 平台的架构。整个 AI 平台采用云原生架构,方便进行资源调度与服务部署。 用户可以选择不同的服务套餐,每个套餐都包含相应的 CPU 和内存资源; ...
Alluxio 企业版自上线以来,一共完成了 300+ 训练任务,包括知乎最重要的千卡大模型训练任务,训练期间没有因为 Fuse 的稳定性导致训练任务重启,相比于社区版,企业版极大减少了无效训练的出现。 2. Alluxio Master 元数据问题 Alluxio Master 是 Alluxio 社区版中一个比较明显的瓶颈: ...
模型训练场景是我们 UnionStore 上线后的扩展场景,之前我们尝试过很多 HDFS 挂载 POSIX 的方式,但是效果都不太理想,主要体现在重试方面,而 UnionStore 正好提供了 S3 协议,s3fs-fuse 重试做的不错,所以我们最后选择了 UnionStore + s3fs-fuse 对 HDFS 进行本地目录的挂载。
模型训练场景:部署到离线机房,作为 HDFS 代理使用,目的是为业务提供 S3 协议的 HDFS 访问方式,通过 s3fs-fuse,业务就能挂载 HDFS 到本地目录,读取训练数据进行模型的训练。 模型训练场景是我们 UnionStore 上线后的扩展场景,之前我们尝试过很多 HDFS 挂载 POSIX 的方式,但是效果都不太理想,主要体现在重试方面,而 ...
Alluxio的FUSE功能支持POSIX兼容的API,因此通过Alluxio,TensorFlow、 Caffe等框架以及其他基于Python的模型可以使用传统文件系统的访问方式直接访问任何存储系统中的数据。 集群运维问题 权限问题 需要赋值alluxio client客户端文件及其父目录 755权限,最好放到 /opt 或者/usr/local 目录下,不要放到/...
Alluxio有多种类型Client,支持各种常见文件读写方式,例如HDFS API, S3 API, FUSE API, REST API。Client让Alluxio成为了一个低绑定、可插拔的中间层,带了极强的易用性。用户无需更改计算应用代码就能接入Alluxio,只需把文件读取地址改为Alluxio即可。 Alluxio Client 所在的位置...