m0_72027614 2024-06-25 16:59 采纳率: 0%
浏览 13

跑训练过程中8张显卡会随机掉线一张,电源和温度目前判断没有问题,

跑训练过程中8张显卡会随机掉线一张,如图所示,不一定那张会掉,可能跑好几天才会掉,电源功率是完全足够的,温度也是完全正常的,掉卡后重启有时候可以正常识别,有时候直接就不识别这张卡了,需要重新拔插下开机才能识别。

img

img

  • 写回答

1条回答 默认 最新

  • 阿里嘎多学长 2024-06-25 17:02
    关注

    以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:


    根据你描述的情况,显卡随机掉线可能由多种原因引起,包括但不限于驱动问题、硬件兼容性、系统设置等。下面我会提供一些可能的解决方案和排查步骤,同时给出相关的参考资料索引。

    1. 检查显卡驱动:确保你的显卡驱动是最新版本,或者尝试回滚到之前的稳定版本。有时候,最新的驱动可能存在一些尚未修复的bug。[^8^]

    2. 检查系统日志:使用系统日志工具,比如 dmesg 或查看 /var/log/syslog,来获取显卡掉线时的系统日志信息,这可能会提供一些线索。[^8^]

    3. 禁用Secure Boot:在某些情况下,启用Secure Boot可能会影响显卡的正常工作。尝试在BIOS设置中禁用Secure Boot。[^8^]

    4. 检查电源管理设置:确认电源管理设置没有影响到显卡的稳定性。有时候,电源管理策略可能会导致显卡掉线。[^3^]

    5. 检查PCIe插槽和电缆:确保PCIe插槽和连接显卡的电缆没有物理损坏或接触不良。[^4^]

    6. 监控系统资源使用情况:使用系统监控工具,如 htopnvidia-smi,来监控系统资源的使用情况,看是否在显卡掉线前有异常的资源占用。[^2^]

    7. 检查僵尸进程:你提供的图片中显示有僵尸进程,这可能会影响系统稳定性。尝试找出并终止这些僵尸进程。[^1^]

    8. 硬件检测:进行硬件检测,以确保没有其他硬件问题,如内存或主板问题,可能间接影响到显卡的稳定性。[^4^]

    9. 更新BIOS和主板芯片组驱动:有时候,更新BIOS或主板芯片组驱动可以解决硬件兼容性问题。[^7^]

    10. 联系显卡制造商:如果上述步骤都不能解决问题,可能需要联系显卡制造商的技术支持,寻求专业的帮助。

    请注意,以上建议可能需要根据你的具体硬件配置和系统环境进行调整。希望这些建议能帮助你找到问题的根源并解决它。如果你需要更具体的帮助,可以提供更多的系统信息和错误日志。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 6月25日

悬赏问题

  • ¥15 wpf ScrollViewer实现冻结左侧宽度w范围内的视图
  • ¥15 栅极驱动低侧烧毁MOSFET
  • ¥30 写segy数据时出错3
  • ¥100 linux下qt运行QCefView demo报错
  • ¥50 F1C100S下的红外解码IR_RX驱动问题
  • ¥20 基于matlab的航迹融合 航迹关联 航迹插补
  • ¥15 用Matlab实现图中的光线追迹
  • ¥15 联想笔记本开机出现系统更新界面
  • ¥15 各位帮帮我 我不想重做系统
  • ¥30 微信小程序蓝牙数据透传