Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

最先dev2.0版本,cloudEon安装kube-prometheus-stack,页面显示成功,但是k8s节点显示异常 #164

Open
Agressif-explorer opened this issue Jan 12, 2025 · 3 comments
Labels
question Further information is requested

Comments

@Agressif-explorer
Copy link

使用的默认的配置
1
打开kubsphere显示 状态不正确
2
查看容器组
5

日志如下:
2025-01-12T20:58:49.715713425+08:00 time=2025-01-12T12:58:49.715Z level=ERROR source=main.go:593 msg="Error loading config (--config.file=/etc/prometheus/config_out/prometheus.env.yaml)" file=/etc/prometheus/config_out/prometheus.env.yaml err="parsing YAML file /etc/prometheus/config_out/prometheus.env.yaml: empty duration string"
另外kube-prometheus-stack-kube-prometheus-stack-prometheus-node-exp容器也启动失败:
怀疑是跟kubesphere-monitoring-system的pod节点端口有冲突,
5

希望大佬们 给个思路 应该怎么处理,不胜感激~~~

@Agressif-explorer Agressif-explorer added the question Further information is requested label Jan 12, 2025
@Agressif-explorer
Copy link
Author

@linshenkx 大佬有思路吗?我的k8s是1.26.15版本

@linshenkx
Copy link
Collaborator

linshenkx commented Jan 12, 2025

  1. 状态不符:cloudeon的kube-prometheus-stack是基于helm部署的,对于helm类型组件,目前跟踪到helm install任务成功就认为成功。实际上容器状态可能不正常。其他组件则是会跟踪到具体的容器状态,就没这个问题。
  2. 大概率是和kubesphere的监控冲突了。看截图两个地方的Prometheus都不正常。你可以先把其中一个停掉看另外一个能不能恢复。
  3. 就日志来说,是加载了错误的配置项,可能是配置项相互影响导致的。应该不是端口的问题,容器不是用主机网络启动的,端口重复不会影响启动。但nodeport的外部端口可能冲突。(这里cloudeon的有个bug,设置界面的nodeport值修改无法生效,会尽快处理)
  4. kubesphere支持使用第三方的kube-prometheus:https://kubesphere.io/zh/docs/v3.4/faq/observability/byop/
  5. cloudeon也支持使用第三方的kube-prometheus:在global组件配置界面,选择外部监控方案并配置外部grafana地址,只要外部的KubePrometheus配置了合适的抓取规则和回调参数就行,参考https://cloudeon.dromara.org/#/%E7%BB%84%E4%BB%B6%E8%AF%B4%E6%98%8E/3.kube-prometheus (可能没有写得太详细)

综上:如果只是测试,可以先把kubesphere的监控给删了,以后再重装回来。不过正式使用,建议以kubesphere的Prometheus为准,因为kubesphere的位置比cloudeon更底层。这个时候应该使用cloudeon的外部监控集成功能,但目前文档不是很完善,可能有坑

@Agressif-explorer
Copy link
Author

大佬威武!没想到这么快就有回复!
1.昨天说的端口重复,是这个kube-prometheus-stack-kube-prometheus-stack-prometheus-node-exp,按默认配置安装后截图如下:
1
我手动修改kube-prometheus-stack-kube-prometheus-stack-prometheus-node-exp端口从9100变成19100或者按您说的删除kubsphere的监控后,这个pod就会正常启动

2.cloudeon也支持使用第三方的kube-prometheus,这个我先在k8s中安装下prometheus,然后接过来试下
再次感谢大佬解惑!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants