返回全部 Skills

azure-diagnostics

其他

使用 AppLens、Azure Monitor、资源健康和安全的分类方法来调试 Azure 上的生产问题。适用场景:调试生产问题、排查应用服务故障、应用服务高 CPU、应用服务部署失败、排查容器应用、排查函数、排查 AKS、kubectl 无法连接、kube-system/CoreDNS 故障、pod pending、crashloop、节点未就绪、升级失败、分析日志、KQL、insights、镜像拉取失败、冷启动问题、健康探测失败、资源健康、错误根因、排查事件中心、排查服务总线、消息 SDK 错误、AMQP 连接失败、消息锁丢失、服务总线死信。

299.4k

下载量

AI SkillHub 能力展示图

安装方式

命令行安装

在项目根目录执行以下命令,完成 Skill 安装。

npx bzskills add microsoft/azure-skills --skill azure-diagnostics

skill.md

name: azure-diagnostics
description: 使用 AppLens、Azure Monitor、资源健康和安全的分类方法来调试 Azure 上的生产问题。适用场景:调试生产问题、排查应用服务故障、应用服务高 CPU、应用服务部署失败、排查容器应用、排查函数、排查 AKS、kubectl 无法连接、kube-system/CoreDNS 故障、pod pending、crashloop、节点未就绪、升级失败、分析日志、KQL、insights、镜像拉取失败、冷启动问题、健康探测失败、资源健康、错误根因、排查事件中心、排查服务总线、消息 SDK 错误、AMQP 连接失败、消息锁丢失、服务总线死信。
license: MIT
metadata:
    author: Microsoft
    version: "1.1.5"

Azure 诊断

权威指南 — 必须遵守

>

本文档是调试和排查 Azure 生产问题的官方来源。请按照以下说明系统地诊断和解决常见的 Azure 服务问题。

触发条件

当用户想要以下操作时激活此技能:

  • 调试或排查生产问题
  • 诊断 Azure 服务中的错误
  • 分析应用程序日志或指标
  • 修复镜像拉取、冷启动或健康探测问题
  • 调查 Azure 资源为何失败
  • 查找应用程序错误的根本原因
  • 排查应用服务问题(高 CPU、部署失败、崩溃、响应慢、TLS/自定义域名)
  • 响应诸如“排查应用服务”、“应用服务高 CPU”或“应用服务部署失败”等提示
  • 排查 Azure 函数应用问题(调用失败、超时、绑定错误)
  • 查找与函数应用关联的 App Insights 或 Log Analytics 工作区
  • 排查 AKS 集群、节点、Pod、Ingress 或 Kubernetes 网络问题
  • 排查 Azure 消息传递 SDK 问题(事件中心、服务总线连接失败、AMQP 错误、消息锁定问题)

规则

  1. 从系统诊断流程开始
  2. 如果可用,使用 AppLens (MCP) 进行 AI 驱动的诊断
  3. 在深入查看日志之前先检查资源健康状态
  4. 根据服务类型选择合适的故障排除指南
  5. 记录发现和已尝试的修复步骤
  6. 将 AKS 事件转至专门的 AKS 故障排除文档

---

快速诊断流程

  1. 识别症状 — 什么出错了?
  2. 检查资源健康 — Azure 是否健康?
  3. 查看日志 — 日志显示了什么?
  4. 分析指标 — 性能模式如何?
  5. 调查近期变更 — 发生了什么变化?

---

按服务分类的故障排除指南

服务常见问题参考
容器应用镜像拉取失败、冷启动、健康探测、端口不匹配[container-apps/](references/container-apps/README.md)
应用服务高 CPU、部署失败、崩溃、响应慢、TLS/自定义域名[app-service/](references/app-service/README.md)
函数应用应用详情、调用失败、超时、绑定错误、冷启动、缺少应用设置[functions/](references/functions/README.md)
AKS集群访问、节点、kube-system、调度、崩溃循环、Ingress、DNS、升级[AKS 故障排除](troubleshooting/aks/aks-troubleshooting.md)
消息传递事件中心和服务总线 SDK 错误、AMQP 失败、消息锁定、连接问题[消息传递故障排除](troubleshooting/messaging/README.md)

---

路由

  • 将容器应用和函数应用的诊断保留在此父技能中。
  • 将活跃的 AKS 事件、AKS 特定的接入、证据收集和修复指导转至 [AKS 故障排除](troubleshooting/aks/aks-troubleshooting.md)。
  • 将 Azure 消息传递 SDK 故障排除(事件中心、服务总线)转至 [消息传递故障排除](troubleshooting/messaging/README.md)。

---

快速参考

常用诊断命令

# 检查资源健康
az resource show --ids RESOURCE_ID
# 查看活动日志
az monitor activity-log list -g RG --max-events 20
# 容器应用日志
az containerapp logs show --name APP -g RG --follow
# 函数应用日志(查询 App Insights 跟踪记录)
az monitor app-insights query --apps APP-INSIGHTS -g RG \
  --analytics-query "traces | where timestamp > ago(1h) | order by timestamp desc | take 50"

AppLens (MCP 工具)

如需 AI 驱动的诊断,请使用:

mcp_azure_mcp_applens
  intent: "diagnose issues with <resource-name>"
  command: "diagnose"
  parameters:
    resourceId: "<resource-id>"

提供:
- 自动问题检测
- 根本原因分析
- 修复建议

Azure Monitor (MCP 工具)

查询日志和指标:

mcp_azure_mcp_monitor
  intent: "query logs for <resource-name>"
  command: "logs_query"
  parameters:
    workspaceId: "<workspace-id>"
    query: "<KQL-query>"

常用诊断查询请参见 [kql-queries.md](references/kql-queries.md)。

---

检查 Azure 资源健康

使用 MCP

mcp_azure_mcp_resourcehealth
  intent: "check health status of <resource-name>"
  command: "get"
  parameters:
    resourceId: "<resource-id>"

使用 CLI

# 检查特定资源健康
az resource show --ids RESOURCE_ID

# 查看最近活动
az monitor activity-log list -g RG --max-events 20

---

参考

  • [KQL 查询库](references/kql-queries.md)
  • [Azure Resource Graph 查询](references/azure-resource-graph.md)
  • [应用服务故障排除](references/app-service/README.md)
  • [函数应用故障排除](references/functions/README.md)
  • [消息传递故障排除](troubleshooting/messaging/README.md)