赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 日志服务
  4. 操作指南
  5. 日志应用
  6. 全栈可观测
  7. 全栈监控
  8. 接入数据
  9. 接入中间件监控数据
  10. 接入Nvidia GPU监控数据

接入Nvidia GPU监控数据

  • 接入中间件监控数据
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

Nvidia GPU服务器中提供多项监控指标,您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中,进行可视化展示。

前提条件

已创建实例。具体操作,请参见创建实例。

步骤一:安装NVIDIA GPU驱动

日志服务使用nvidia-smi命令采集GPU信息,该命令包含在GPU驱动程序中,因此需要先安装驱动程序。具体操作,请参见在GPU计算型实例中安装GPU驱动(Linux)。如果您使用阿里云ECS的GPU实例,则GPU实例中已默认安装驱动,可跳过此步骤。

步骤二:创建Logtail采集配置

  1. 登录日志服务控制台。

  2. 在日志应用区域的智能运维页签下,单击全栈可观测。

  3. 在SLS全栈可观测页面,单击目标实例。

  4. 在左侧导航栏中,单击数据接入,然后在数据接入配置页面,找到中间件监控区域的Nvidia GPU。

    首次创建目标监控项的接入配置时,打开创建开关,可进入配置页面。如果您已创建过接入配置,则单击创建图标,可进入配置页面。

  5. 创建机器组。

    • 如果您已有可用的机器组,请单击使用现有机器组。

    • 如果您还没有可用的机器组,请执行以下操作(以ECS为例)。

      1. 在ECS机器页签中,通过手动选择实例方式选择目标ECS实例,单击创建。

        更多信息,请参见安装Logtail(ECS实例)。

        重要

        如果您的服务器是与日志服务属于不同账号的ECS、其他云厂商的服务器和自建IDC时,您需要手动在目标服务器中安装Linux Logtail 0.16.50及以上版本。具体操作,请参见安装Logtail(Linux系统)。安装完成后,您还需要在该服务器上手动配置用户标识。具体操作,请参见配置用户标识。

      2. 安装完成后,单击确认安装完毕。

      3. 在创建机器组页面,输入名称,单击下一步。

        日志服务支持创建IP地址机器组和用户自定义标识机器组,详细参数说明请参见创建IP地址机器组和创建用户自定义标识机器组。

    重要

    请确保用于安装Logtail的服务器可连接目标Nvidia GPU服务器。

  6. 选中目标机器组,将该机器组从源机器组移动到应用机器组,单击下一步。
    重要 创建机器组后立刻应用,可能因为连接未生效,导致心跳为FAIL,您可单击自动重试。如果还未解决,请参见Logtail机器组无心跳进行排查。
  7. 在数据源设置配置向导中,配置如下参数,然后单击完成。

    参数名称

    说明

    配置名称

    自定义设置Logtail采集配置的名称。

    集群名称

    自定义设置Nvidia GPU集群的名称。

    设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加cluster=集群名称的标签。

    重要

    请确保该集群名称唯一,否则可能出现数据冲突。

    nvidia-smi路径

    安装nvidia-smi命令的路径,默认为/usr/bin/nvidia-smi。

    自定义标签

    为采集到的Nvidia GPU监控数据添加自定义标签,该标签为键值对形式。

    设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加标签。

    设置完成后,日志服务将自动生成Metricstore等资产。更多信息,请参见资产说明。

后续步骤

接入Nvidia GPU监控数据后,全栈可观测应用会自动生成专属仪表盘。您可以通过仪表盘分析监控数据。具体操作,请参见查看仪表盘。

相关文章

接入Kafka监控数据 2025-04-22 10:44

Kafka中提供多项监控指标,您可以将Kafka中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件

接入Nginx监控数据 2025-04-22 10:44

Nginx中的自建状态页可用于监控Nginx,生成监控指标。您可以将Nginx中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件 已创建全栈可观测实例

接入Nvidia GPU监控数据 2025-04-22 10:44

Nvidia GPU服务器中提供多项监控指标,您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件 已创建实例。具体操作,请参见创建实例。

接入Tomcat监控数据 2025-04-22 10:44

Tomcat中提供多项监控指标,您可以将Tomcat中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件

接入JVM监控数据(旧版) 2025-04-22 10:44

Java Virtual Machine(JVM)中提供多项监控指标,您可以将JVM中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件

接入JVM监控数据(新版) 2025-04-22 10:44

Java Virtual Machine(JVM)提供多项监控指标,您可以将JVM中的监控指标接入到全栈可观测应用中,进行可视化展示。 前提条件

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号