flink_taskmanager_job_task_numRecordsOut 输出记录总数 如果某个算子的numRecordsOut的值长时间未增长,可能是由于作业代码逻辑错误,导致数据被吞掉,因此未成功传递数据。此时,您需要查看作业代码逻辑。 条 自定义指标 flink_taskmanager_job_task_operator_numBytesIn 输入字节总数 查看上游吞吐的输入情况,帮助您观察作业流...
Job Uptime flink_jobmanager_job_uptime 作业已运行时间。单位:ms。 Num of AvailableTaskSlot flink_jobmanager_taskSlotsAvailable 当前可用的taskSlot数目。 TaskSlots Total flink_jobmanager_taskSlotsTotal 总taskSlot数目。 sourceIdleTime flink_taskmanager_job_task_operator_sourceIdleTime 源没有处理任何记录的...
1. Job Metrics(任务指标): - numRecordsIn:表示输入流中的记录数。 - numRecordsOut:表示输出流中的记录数。 - numRecordsInPerSecond:表示每秒处理的输入记录数。 - numRecordsOutPerSecond:表示每秒处理的输出记录数。 这些指标可以帮助用户了解应用程序的处理速度,并监控数据流的输入和输出情况。 2. Task Metrics...
numBytesOut PerSecondflink_taskmanager_job_task_numBytesOutPerSecond每秒发出字节数。单位:Byte。 flink_taskmanager_job_task_numBuffersOutPerSecond每秒发出网络缓冲区数量。单位:Byte。 Task numRecords I/O PerSecondflink_taskmanager_job_task_numRecordsInPerSecond每秒接收记录数。
任务checkpoint失败数量: 任务flink_jobmanager_job_numberOfFailedCheckpointsbarrier 对齐花费时间: flink_taskmanager_job_task_checkpointAlignmentTime flinkSql/flink 任务业务延迟:flink_taskmanager_job_task_operator_dtEventDelay各source tps数据输入:flink_taskmanager_job_task_operator_dtNumRecordsInRate各source ...
监控JobManager 我们知道 JobManager 是 Flink 集群的中控节点,类似于 Apache Storm 的 Nimbus 以及 Apache Spark 的 Driver 的角色。它负责作业的调度、作业 Jar 包的管理、Checkpoint 的协调和发起、与 TaskManager 之间的心跳检查等工作。如果 JobManager 出现问题的话,就会导致作业 UI 信息查看不了,TaskManager 和...
TaskManager是实际负责执行计算的Worker,TaskManager 是一个 JVM 进程,并会以独立的线程来执行一个task或多个subtask。为了控制一个 TaskManager 能接受多少个 task,Flink 提出了 Task Slot 的概念TaskManager会将自己节点上管理的资源分为不同的Slot:固定大小的资源子集。这样就避免了不同Job的Task互相竞争内存资源...
当前任务 join算子链的 flink_taskmanager_job_task_operator_numRecordsInPerSecond 指标,总体上在以下时间段在有数据的情况下每分钟 2-3 (0.033 * 60)条左右 Checkpoint: 当前任务是全量checkpoint,对于全量做checkpoint ,通过对比发现当延迟增大的时候,一般 checkpoint 时长也会很大(增量checkpoint 现象不明显) 其他...
jobmanager.rpc.address(默认为“localhost”)和jobmanager.rpc.port(默认为“6123”)配置条目用于TaskManager连接到JobManager/ResourceManager。将其设置为JobManager运行的主机名或JobManager的(Kubernetes内部)服务的主机名。在使用高可用性的设置中,此选项将被忽略,因为会使用领导者选举机制自动发现。
业务延迟: flink_taskmanager_job_task_operator_dtEventDelay(单位s) 数据本身的时间和进入flink的当前时间的差值. 各个输入源的脏数据:flink_taskmanager_job_task_operator_dtDirtyData 从kafka获取的数据解析失败的视为脏数据 各Source的数据输入TPS: flink_taskmanager_job_task_operator_dtNumRecordsInRate ...