01|DeepFlow NVIDIA GPU 指标数据集成方案 整体架构 我们使用 DeepFlow Agent + Grafana Alloy + DCGM Exporter 实现 NVIDIA GPU 服务器的应用观测数据、主机指标数据、GPU 指标数据的统一采集。Grafana Alloy 是由 Grafana Labs 开发的用于多类观测数据的搜集工具。DCGM Exporter 是由 NVIDIA 公司提供的 GPU 指标 Exp...
DCGM Exporter服务在每个节点上都存在一个,当Prometheus使用拉数据这种模式时,每隔一段时间(用户可设置时间间隔)就访问该节点GCGM Exporter的服务获取该节点GPU相关指标,然后存入的Prometheus的数据库中,grafana每隔一段时间(用户可设置时间间隔)从Prometheus数据库中拿取该节点GPU指标,然后在浏览器中通过各种仪表盘展示出来。
在GPU 服务器中部署 DCGM Exporter,采集 GPU 指标并提供向 Alloy 提供暴露接口; 在GPU 服务器中部署 Grafana Alloy,采集主机指标和 DCGM Exporter 的暴露指标,并发送到主机内部署的 DeepFlow Agent; 在GPU 服务器中部署 DeepFlow Agent,采集应用观测数据,并汇聚 Alloy 的主机指标数据、GPU 指标数据后,统一回送至 ...
项目地址:GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary 根据git上面的nvidia监控项目,可以实现grafana监控GPU,但是git上面提供的utkuozdemir/nvidia_gpu_exporter:0.3.0这个镜像只可以在ubuntu系统上面运行,如果在centos上运行,日志会提示无法...
DCGM Exporter:周期性的收集节点GPU设备的状态(当前温度、总的显存、已使用显存、使用率等),然后结合Prometheus和Grafana将这些指标用丰富的仪表盘展示给用户。在k8s集群中以DaemonSet方式部署,只有节点拥有标签“nvidia.com/gpu.present=true”时,DaemonSet控制的Pod才会在该节点上运行。
配置Prometheus来抓取DCGM Exporter的指标。5.2 调优和优化 节点亲和性:配置Pod调度策略,提高GPU利用率...
Nvidia_gpu_exploter是一个专为Prometheus设计的Exporter,用于获取NVIDIA GPU的实时状态信息。它通过nvidia-smi命令抓取GPU的利用率、显存使用情况等数据,并将这些数据转换为Prometheus可以处理的标准格式。 2.Prometheus Prometheus是一个开源的监控和警报工具,负责从配置的目标(如Nvidia_gpu_exploter)中抓取度量指标数据,并...
nvidia-gpu-exporter ClusterRoleBinding - - nvidia-gpu-exporter Service - kube-system 限制条件 支持Kubernetes 1.16及以上版本的集群。 组件权限 权限说明 该组件权限是当前功能实现的最小权限依赖。 权限场景 功能 涉及对象 涉及操作权限 需要跟踪及获取节点信息,以确定显存单位。
nvidia.com/gpu.deploy.node-status-exporter=true nvidia.com/gpu.deploy.operator-validator=true nvidia.com/gpu.present=true Annotations: node.alpha.kubernetes.io/ttl: 0 nvidia.com/gpu-driver-upgrade-enabled: true projectcalico.org/IPv4Address: 192.168.0.52/24 ...
kubectl -n monitoring get svc,pod -l app.kubernetes.io/name=dcgm-exporter 4、指标暴露情况确认 调用dcgm-exporter 接口,验证 GPU 指标获取情况;假设 172.16.0.114 为 pod/container 的 IP,显示数据如下,显示结果会根据 GPU 卡的数量不同而显示不同的记录数,如图为 8 张卡。