體育資訊9月8日稱?GPU 計算云服務(wù)提供商 CloudRift 在上個月發(fā)布公告,GeForce RTX 5090 和 RTX PRO 6000 已被證實存在可復(fù)現(xiàn)的虛擬化故障,導(dǎo)致顯卡無法使用,直到整個系統(tǒng)重新上電,將懸賞 1000 美元(約 7128 元人民幣)解決這個問題。
CloudRift 表示,在一些配備 RTX 5090 和 RTX PRO 6000 顯卡的節(jié)點上,這些顯卡偶爾會完全無響應(yīng) —— 通常在使用虛擬機幾天后,或在啟動 / 關(guān)閉過程中看似隨機的時間點。一旦發(fā)生這種情況,顯卡就無法重新分配。唯一的解決辦法是重啟整個節(jié)點。
CloudRift 已經(jīng)排除了大多數(shù)常見問題:IOMMU 的 quirks、內(nèi)核版本、驅(qū)動綁定以及 libvirt 的配置錯誤。該公司的 H100s、B200s 和較舊的 RTX 4090 都在運行穩(wěn)定,但這些較新的 RTX 顯卡給他們帶來了大麻煩。
據(jù) Tom's Hardware 昨日報道,Proxmox 論壇和 Level1Techs 上的用戶也報告了類似的問題。在其中一個案例中,Windows 虛擬機關(guān)閉后系統(tǒng)掛起,即使操作系統(tǒng)重啟后 GPU 也無法重新初始化。另一位用戶描述了 Linux 虛擬機關(guān)閉時 FLR 超時后主機 CPU 軟鎖,切換 PCIe ASPM 或 ACS 設(shè)置等嘗試未能解決問題。