Kubernetes prometheus Job误报解决

网友投稿 257 2022-10-07

Kubernetes prometheus Job误报解决

背景:

Kubernetes prometheus Job误报解决

1. 暴力方式-删除失败的job!

[root@k8s-master-01 manifests]# kubectl get job -n develop-layaverse NAME COMPLETIONS DURATION AGE xxxx-worldmap-job-27468560 0/1 13d 13d xxxx-worldmap-job-27487460 1/1 1s 11m xxxx-worldmap-job-27487465 1/1 1s 6m57s xxxx-worldmap-job-27487470 1/1 1s 117s [root@k8s-master-01 manifests]# kubectl get cronjob -n develop-layaverse NAME SCHEDULE SUSPEND ACTIVE LAST SCHEDULE AGE xxxx-worldmap-job */5 * * * * False 0 2m15s 79d

2.修改elert规则

1. prometheus web 确认报警的elerts

[root@k8s-master-01 manifests]# grep -r KubeJobFailed ./ ./kubernetes-prometheusRule.yaml: - alert: KubeJobFailed [root@k8s-master-01 manifests]# grep -r KubeJobCompletion ./ ./kubernetes-prometheusRule.yaml: - alert: KubeJobCompletion

2. 具体相关的可以借鉴:

Prometheus: K8s Cronjob alerts Monitoring kubernetes jobs Prometheus 监控kubernetes Job资源误报的坑

三篇文章仔细读一下很相似,最早的是Prometheus: K8s Cronjob alerts,2018年写的。Prometheus 监控kubernetes Job资源误报的坑 是阳明大佬写的。但是就事论事,跟Monitoring kubernetes jobs有很大雷同。由于规则记录,报警规则我还是不太熟悉....没有深入研究具体的其参考阳明大佬的博客吧!https://qikqiak.com/post/prometheus-monitor-k8s-job-trap/.......不知为不知毕竟都用了默认的.等熟悉一下再去深入。这里就先删除失败的job了。后续系统研究......

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:基于 KubeVela 的机器学习实践
下一篇:java实现简易连连看小游戏
相关文章

 发表评论

暂时没有评论,来抢沙发吧~