發(fā)布時(shí)間:2025-12-29
設(shè)備型號(hào):KunTai R522
硬件配置:MegaRAID 9460-8i
MT27800 Family [ConnectX-5] *2
Riser(X16*1+X8*1) *2
12*3.5 SAS/SATA, Expander 06030682
4*2.5 SAS/SATA/NVME, Rear 03025VYV
軟件配置:BMC:3.10.00.05
BIOS:KL4.009.KT.230803.R
KERNEL:4.19.90-23.29.v2101.ky10.aarch64
客戶于2024年6月11日出現(xiàn)一臺(tái)R522服務(wù)器CPU UCE告警,需要更換主板
第一次更換BIOS版本為KL4.009.KT.230803.R的主板后,BMC出現(xiàn)SAS線纜連接告警,且無法識(shí)別網(wǎng)卡和RAID卡的現(xiàn)象,BIOS正常識(shí)別PCIe設(shè)備,可正常進(jìn)入操作系統(tǒng);
第二次更換BIOS版本為KL4.009.KT.230820.R的主板后,SAS線纜連接錯(cuò)誤消除,BMC正常識(shí)別PCIE卡設(shè)備,服務(wù)器可正常進(jìn)入操作系統(tǒng),無異常告警;
對(duì)比兩次更換的主板,硬件物料一致,BMC版本均為3.10.00.05版本、CPLD為1.12版本,僅BIOS版本存在差異。
1. 分析sel事件日志記錄,發(fā)現(xiàn)日志打印存在SAS線纜告警的記錄,該線纜用于RAID卡與前置硬盤背板的連接。

2. 分析card_info硬件日志,BMC下無法識(shí)別riser卡上安裝的PCIe設(shè)備,包括網(wǎng)卡和RAID卡。

3. 分析systemcom系統(tǒng)串口日志,發(fā)現(xiàn)Cpu0CardType,Cpu1Riser2CardType,Cpu1Riser3CardType信息顯示兩次,并且兩次顯示的值不一致。

4. 根據(jù)以上日志可以看到BIOS的1783行代碼和1809行代碼,讀取的Cpu0CardType,Cpu1Riser2CardType,Cpu1Riser3CardType信息有差異,問題出在BIOS側(cè)。
5. 分析故障服務(wù)器日志發(fā)現(xiàn),BIOS為KL4.009.KT.230803.R版本的串口日志在第1347行多了一條與問題相關(guān)的一行打印。

6. 分析“[1757L]xxx”打印,代碼如下順利獲得ReadCpldReg()接口由CPLD告知BIOS硬件Riser的在位狀態(tài),返回值0xD0標(biāo)識(shí)Riser1和Riser2是在位狀態(tài),0xD0對(duì)應(yīng)二進(jìn)制是11010000,對(duì)應(yīng)Bit7=1,Bit6=1,Bit5=0;

Cpu0CardType:因Bit7=1,表示Riser1在位,由BIOS給BMC發(fā)送命令獲取該Riser的類型,由昆侖版本的[1783L]的打印Cpu0CardType=95為Riser1卡;
Cpu1Riser2CardType:因Bit6=1,表示Riser2在位,由BIOS給BMC發(fā)送命令獲取該Riser的類型,由昆侖版本的打印[1783L]Cpu1Riser2CardType=95為Riser2卡;
Cpu1Riser3CardType:因Bit5=0,表示Riser3不在位,再進(jìn)一步順利獲得讀CPLD的0x61寄存器判斷該槽位接入的是哪種硬件設(shè)備,由昆侖版本的[1783L]的打印Cpu1Riser3CardType=4E可以看出現(xiàn)在當(dāng)前環(huán)境接入硬盤背板為4NVME配置;
7. 分析昆侖版本中“[1809L]xxx”行打印信息,發(fā)現(xiàn)因代碼Bug 從BMC端傳回的Cpu0CardType、Cpu1Riser2CardType、Cpu1Riser3CardType變量值都會(huì)被Flash變量區(qū)中的“OemConfig1”結(jié)構(gòu)體變量存儲(chǔ)的值再次賦值,如果硬件上有變化,BMC端獲取的值和flash變量的值就會(huì)有不同,這樣就會(huì)導(dǎo)致錯(cuò)誤。

當(dāng)Cpu0CardType和Cpu1Riser2CardType變?yōu)?9時(shí),在BIOS側(cè)都認(rèn)為是無效值,而Cpu1Riser3CardType變?yōu)?6時(shí),則認(rèn)為當(dāng)前配置成了2X8的狀態(tài)。
備注:Flash變量區(qū)中的“OemConfig1”中的Cpu0CardType、Cpu1Riser2CardType、Cpu1Riser3CardType的值是單板第一次啟動(dòng)時(shí)寫入進(jìn)去的,該變量掉電數(shù)據(jù)不消失,全擦升級(jí)BIOS固件可以更新為當(dāng)前配置對(duì)應(yīng)數(shù)據(jù)。
8. 因Cpu0CardType為99,因此BIOS從BMC無法獲取SlotTable信息,從而導(dǎo)致BIOS無法給BMC上報(bào)該Riser上的設(shè)備信息(包括SlotId、CPU號(hào) 、Bus、Dev、Func),在BMC側(cè)的呈現(xiàn)就為識(shí)別不到設(shè)備;同理,Cpu1Riser2CardType和Cpu1Riser3CardType的變化,也會(huì)導(dǎo)致不上報(bào)或上報(bào)錯(cuò)誤。
更換主板后,iBMC無法識(shí)別PCIE卡的故障現(xiàn)象為昆侖BIOS KL4.009.KT.230803.R代碼BUG所致,具體表現(xiàn)為如果硬件有變動(dòng)(如主板、Riser卡、后置硬盤背板),BIOS以及系統(tǒng)下枚舉設(shè)備的時(shí)候不依賴被替換的值,可正常顯示PCIE設(shè)備,而BIOS給BMC上報(bào)會(huì)有依賴被替換的錯(cuò)誤值,導(dǎo)致BMC無法識(shí)別PCIe設(shè)備,從而產(chǎn)生告警;如果硬件無變動(dòng),不會(huì)出現(xiàn)此問題。
建議客戶后續(xù)主板使用BIOS為更新基線后的S920S00K-KL4.009.KT.230820.R版本,此BIOS版本未合入該故障現(xiàn)象相關(guān)的代碼,BIOS不會(huì)重新更新從BMC獲取的Riser或后置硬盤背板的類型,同時(shí)也考慮主板廠家新基線會(huì)修復(fù)以及優(yōu)化一些已知問題,建議后續(xù)現(xiàn)網(wǎng)固件持續(xù)更新,使用最新版BIOS版本。
400-810-9119
bti必一体育(b-sports)







圖標(biāo).png)
.png)
神州數(shù)碼集團(tuán)

返回頂部
客戶服務(wù)熱線
7X24小時(shí)服務(wù)熱線400-810-9119
公司地址
北京市海淀區(qū)上地九街九號(hào)數(shù)碼科技廣場(chǎng)