news 2026/6/21 16:49:58

Linux显卡信息查询与排错

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Linux显卡信息查询与排错

查看显卡情况

lspci | grep -i vga
lspci | grep -E "VGA|3D|Display"
显示
04:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 41)
4b:00.0 VGA compatible controller: NVIDIA Corporation Device 2204 (rev a1)
65:00.0 VGA compatible controller: NVIDIA Corporation Device 2204 (rev a1)
点击型号网址进行查询
更多指令
查看gpu对应位置

nvidia-smi -q|grep-E"GPU 0000|Product Name|Bus Id"
GPU 00000000:4B:00.0 Product Name:***** Bus Id:00000000:4B:00.0 GPU 00000000:B1:00.0 Product Name:***** Bus Id:00000000:B1:00.0

查看所有的bus address

sudodmidecode -t slot|grep-E"Designation|Bus Address"
Designation: OCPA_CPU0_NVME0 Bus Address: 0000:17:00.0 Designation: OCPA_CPU0_NVME1 Bus Address: 0000:18:00.0 Designation: PCIE1_CPU0_SLOT0 Bus Address: 0000:4b:00.0 Designation: SLIM0_CPU0 Bus Address: 0000:65:00.0 Designation: PCIE0_CPU1_SLOT1 Bus Address: 0000:b1:00.0 Designation: SLIM0_CPU1 Bus Address: 0000:e3:00.0

浪潮 NF5280M6中00000000:4B:00.0对应左侧位置,00000000:B1:00.0对应右侧或中间的位置。

显示报错信息

dmesg|grep-i"XID"
[357.496185]NVRM: Xid(PCI:0000:b1:00):79, GPU has fallen off the bus.[357.497065]NVRM: Xid(PCI:0000:4b:00):154, GPU recovery action changed from 0x0(None)to 0x2(Node Reboot Required)[357.497078]NVRM: Xid(PCI:0000:b1:00):154, GPU recovery action changed from 0x0(None)to 0x2(Node Reboot Required)

Xid Errors表
常见错误

XID代码含义严重性典型原因
32推送缓冲区流无效或损坏驱动Bug、显存溢出
43GPU执行超时计算任务死锁、散热不良
74NVLink链路异常致命硬件损坏、固件故障
79GPU从总线脱落致命电源故障、PCIe插槽接触不良
48显存页分配失败显存不足、驱动兼容性问题

常见维修方法

对于Xid (PCI:0000:b1:00): 79, GPU has fallen off the bus.:将两张显卡交换位置,启动后使用服务器显卡,若产生掉卡,使用dmesg | grep -i "XID"查看信息,如果后续运行中依然报错Xid (PCI:0000:b1:00): 79, GPU has fallen off the bus.说明是PCIe插槽或电源线有问题,如果报错变成Xid (PCI:0000:4b:00): 79, GPU has fallen off the bus.说明显卡有问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/21 3:01:08

SSH X11 forwarding运行图形界面程序

SSH X11 Forwarding 运行图形界面程序 在人工智能和数据科学的日常开发中,一个常见的场景是:你有一台部署在云端或数据中心的高性能服务器,它没有显示器、键盘和鼠标,但你需要在这台“黑盒”机器上运行带有图形界面的工具——比如…

作者头像 李华
网站建设 2026/6/19 20:57:27

判断两个IP是否属于同一子网_判断是否在同一个子网

判断两个IP地址是否属于同一个子网(网段)的方法 判断两个IPv4地址是否在同一个子网的核心原理是:将每个IP地址与子网掩码进行按位与(AND)运算,得到网络地址(网络号)。如果两个网络地…

作者头像 李华
网站建设 2026/6/21 6:11:55

转换wps字符串

LET(文本,SUBSTITUTE(D1,CHAR(10),","),长度,LEN(文本),结果,REDUCE("",SEQUENCE(长度),LAMBDA(累计值,i,LET(字符,MID(文本,i,1),编码,CODE(字符),IF(编码<128,累计值&字符,LET(最后一个字符,IF(累计值"","",RIGHT(累计值,1))…

作者头像 李华
网站建设 2026/6/16 5:26:10

Linux lsof命令查看Miniconda占用的端口资源

使用 lsof 精准排查 Miniconda 环境中的端口占用问题 在现代 AI 与数据科学开发中&#xff0c;Python 已经成为事实上的标准语言。从 Jupyter Notebook 到 PyTorch 训ing 脚本&#xff0c;再到基于 Flask 或 FastAPI 的模型服务部署&#xff0c;几乎每个环节都离不开 Python 生…

作者头像 李华
网站建设 2026/6/12 15:18:01

科研级Python环境搭建:Miniconda镜像确保实验结果可复现

科研级Python环境搭建&#xff1a;Miniconda镜像确保实验结果可复现 在人工智能和数据科学领域&#xff0c;一个令人沮丧的场景屡见不鲜&#xff1a;几个月前还能完美运行的实验代码&#xff0c;如今却在导入时抛出奇怪的错误——“module torch has no attribute utils.data&a…

作者头像 李华
网站建设 2026/6/15 11:41:02

使用cookiecutter生成Miniconda项目模板

使用 cookiecutter 生成 Miniconda 项目模板 在数据科学与机器学习团队中&#xff0c;一个常见的场景是&#xff1a;新成员入职第一天&#xff0c;被分配到一个 GitHub 仓库链接和一份“环境配置说明”文档。接下来的几小时甚至一整天&#xff0c;他们都在折腾 Python 版本、包…

作者头像 李华