方法一:node_uname_info获取 主机名(nodename)在指标node_uname_info中,且node_uname_info的值恰巧为1,所以我们可以在PromQL中通过node_uname_info提取,只需要在原有PromQL后添加 * on(instance) group_left(nodename) (node_uname_info) 1. 这样,在prometheus告警的labels中,就可以通过nodename获取主机名了 特...
node_uname_info:主机基本信息,包括架构、主机名、操作系统类型等 2、CPU使用率: (1 - avg(rate(node_cpu_seconds_total{mode="idle"}[$interval])) by (instance)) * 100 3、CPU负载: node_load1:1分钟负载 node_load5:5分钟负载 node_load15:15分钟负载 4、内存使用率: 100 - node_memory_MemAvail...
node_uname_info #主机信息,包含主机名 count by (nodename) (node_uname_info) #主机名 在grafana中,可以添加变量hostname,并设置Query为label_values(node_uname_info{job=~"$job"}, nodename),筛选出主机名。 2.3 运行时间: time() - node_boot_time_seconds #系统运行时间,单位是s (time() - node...
" DISK_IO_PER_NODE_BANNER="Disk I/O per node: <node name>, <disk I/O over last 5min>" DISK_IO_PER_NODE_QUERY="(avg by (instance) (irate(node_disk_io_time_seconds_total[5m])/1000) * on (instance) group_left (nodename) node_uname_info)" DISK_IO_PER_NODE=$(curl --glob...
在浏览器输入prometheus监控地址,在搜索栏中输入“node_uname_info”,然后输出回车,就显示该集群下,所有主机的信息了。 技巧六:表达式修改 我们在日常运维中,经常会遇到一些特殊需求的场景,而grafana面板显示的并不是我们需要的,此时需要我们修改下grafana的表达式来满足我们的需求,例如:统计下集群内流量峰值。
kube_persistentvolumeclaim_info kube-state-metrics CPU Usage sum(node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate{cluster="$cluster", container!="POD", container!=""}) by (namespace) node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate 预聚合指标 CPU...
description: Node memory is filling up (< 10% left) VALUE = {{$value}} LABELS: {{$labels}} 内存 节点内存压力大。主要页面故障率高 - alert: HostMemoryUnderMemoryPressureexpr: rate(node_vmstat_pgmajfault[1m]) > 1000for: 5m labels: ...
node_disk_io_time_weighted_seconds_total node_exporter_build_info node_time_seconds node_uname_info" kube-state-metrics (job=kube-state-metrics) kube_job_status_succeeded kube_job_spec_completions kube_daemonset_status_desired_number_scheduled ...
avg by (instance, nodename)(irate(node_cpu_seconds_total{mode!="idle"}[5m])) * 100 * on (instance) group_left (nodename) node_uname_info 描述 显示在 5 分钟的时间间隔内每个节点正在使用的 CPU 量 (以秒为单位)。 内存使用率 查询 ...
expr: count(sum(label_replace(node_uname_info, "kernel", "$1", "release", "([0-9]+.[0-9]+.[0-9]+).*")) by (kernel)) > 1 for: 5m labels: severity: warning annotations: summary: Host kernel version deviations (instance {{ $labels.instance }}) ...