在云原生环境中,排障往往像一场侦探游戏。日志、监控、事件、配置……每个线索都藏着真相,但分析起来耗时又费脑。
现在,HolmesGPT 来了——一个基于大语言模型(LLM)的智能排障助手。它能理解上下文、自动分析问题、给出修复建议,让排障这件事,变得像聊天一样轻松。
什么是 HolmesGPT
HolmesGPT 是一个面向云原生环境的智能故障排查助手(AI Agent for Troubleshooting Cloud-Native Environments)。
它通过多源数据联动、自动化集成与智能分析,帮助你快速定位并解决集群中的问题。你可以把它理解为一位 7×24 小时在线的“云原生顾问”,既懂 Kubernetes,也懂日志、告警和 CI/CD。
核心功能推荐
交互式诊断
在 HolmesGPT 的交互界面中,你只需输入问题描述,例如:
Pod 一直 CrashLoopBackOff,帮我看看?
HolmesGPT 会自动分析相关日志、事件、部署信息,并提供可行的修复建议。
支持多轮对话、上下文追踪,让排障像对话一样自然。
CI/CD 故障分析
HolmesGPT 可无缝集成到 CI/CD 流水线中。
当部署失败时,它会自动识别失败原因,分析日志堆栈,并将报告推送至 Slack 或飞书等协作工具。让开发团队第一时间知道——“问题出在哪”。
Prometheus 告警分析
HolmesGPT 能对接 Prometheus 与 AlertManager,自动分析告警事件、趋势与指标。无论是持续告警还是突发异常,它都能快速帮助你找到潜在根因。
MCP 智能扩展
通过集成 Model Context Protocol (MCP),HolmesGPT 可与外部系统协同工作。例如自动查询 Kubernetes 对象、关联 Grafana Dashboard 或调用自定义诊断工具。让故障分析过程更加自动化、智能化。
在 KubeSphere 中快速部署 HolmesGPT
HolmesGPT 已正式上架 KubeSphere 扩展中心(AI Labs),用户可通过控制台快速部署并体验 AI 驱动的智能排障功能。
使用 KubeSphere 企业版 或 KubeSphere 社区版,均可通过控制台完成 HolmesGPT 的快速安装部署。
详细安装文档请参考:👉 KubeSphere 安装指南
值得一提的是,KubeSphere 社区版与企业版之间支持平滑迁移。用户在完成社区版部署后,仅需更换 License 即可升级为企业版,无需重新安装或中断现有服务。
如尚未拥有企业版 License,可扫码填写表单申请免费试用授权。
详细安装与配置步骤说明
在正式部署 HolmesGPT 前,请确保以下依赖环境已经准备好:
- 已部署可用的 KubeSphere 环境
- 拥有有效的 AI 模型 API Key(推荐使用 DeepSeek-V3.1-Terminus)
国内环境推荐使用 DeepSeek-V3.1-Terminus 模型,如果您没有可用模型,注册 基石智算平台(https://coreshub.cn/) 即可领取算力券,查看创建 API Key 教程获取 API Key。
一键安装步骤
- 快速部署 AI Labs
参考 AI Labs 快速开始指南 进行安装和初始化配置。 - 打开 KubeSphere 扩展中心
在控制台中搜索 HolmesGPT,进入详情页后点击安装,根据提示完成部署。 - 配置运行参数(可选)
可根据环境自定义 HolmesGPT 的日志级别、模型 API 接口及 Prometheus 地址等参数。
推荐配置示例
holmes:logLevel: DEBUGadditionalEnvVars:- name: CLUSTER_NAMEvalue: "host"- name: DEEPSEEK_API_BASEvalue: "https://openapi.coreshub.cn/v1" # DeepSeek 接口地址- name: DEEPSEEK_API_KEYvalue: "sk-*******************" # 替换为你的 API Keytoolsets:kubernetes/core:enabled: truekubernetes/logs:enabled: truekubernetes/prometheus_stack:enabled: truehelm/core:enabled: trueinternet:enabled: trueprometheus/metrics:enabled: trueconfig:prometheus_url: "http://prometheus-k8s.kubesphere-monitoring-system.svc:9090"modelList:deepseek:api_key: "{{ env.DEEPSEEK_API_KEY }}"model: deepseek/DeepSeek-V3.1-Terminustemperature: 0
完成以上步骤后,即可在 KubeSphere 环境中体验 HolmesGPT 的强大功能。
小结
通过 HolmesGPT,KubeSphere 用户可以在熟悉的云原生环境中快速体验 AI 驱动的智能排障能力。
从日志到告警,从部署到分析,HolmesGPT 让问题定位更高效、决策更智能,也让云原生运维更具未来感。
💡 关于 KubeSphere AI Labs
本文是 KubeSphere AI Labs 推出的第一篇内容。
AI Labs 是面向 KubeSphere 平台的智能扩展实验计划,致力于探索 “AI × 云原生” 的新边界,助力云原生智能化。