•
"Especificaciones del sensor de la GPU de XCC" en la página 330
Comprobación de estado de GPU y placa de GPU
El siguiente estado del sensor por ipmitool indica que el estado de las GPU y de la placa de la GPU es
normal.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Intel® XPU Manager
Para comprobar el estado de la GPU, puede utilizar el Intel® XPU Manager. Intel® XPU Manager es una
herramienta de supervisión y gestión de GPU que simplifica la administración de GPU. La descarga e
información de Intel® XPU Manager están disponibles en
.
xpu-manager.html
El sistema no puede detectar la placa de la GPU
Cuando el suceso Sensor GPU Board has transitioned to critical from a less severe state aparece en el
registro de sucesos web de XCC, indica que el sistema no puede detectar la placa de la GPU. Siga estos
pasos para resolver el problema.
1. Realice un ciclo de alimentación del sistema.
2. Compruebe los sucesos relacionados con la entrada de alimentación en XCC y SMM2 (consulte
pubs.lenovo.com/mgt_tools_smm2/c_power
3. Compruebe la temperatura del sistema y el flujo de agua. Compruebe si hay fugas y desconecte y
vuelva a conectar el sistema de refrigeración por agua.
4. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte
GPU y placa de GPU" en la página
5. Uno de los siguientes elementos indica que el problema se ha resuelto:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) en los mensajes de XCC
• Sensor GPU Board has transitioned to normal state en el registro web
No obstante, si el problema persiste, siga estos pasos:
a. Recopile los datos de servicio de XCC (consulte
354).
b. Póngase en contacto con el servicio de Lenovo.
El sistema no puede detectar una GPU específica
Cuando el suceso Sensor GPU CPUs has transitioned to critical from a less severe state aparece en el
registro de sucesos web de XCC, indica que el sistema no puede detectar una o más GPU específicas. Siga
estos pasos para resolver el problema.
1. Compruebe en el suceso de XCC si la temperatura del retemporizador es excesiva, si es así, omita el
siguiente paso.
2. Descargue el firmware más reciente desde el sitio de Soporte del Centro de Datos () y actualice el
firmware.
3. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte
GPU y placa de GPU" en la página
4. Si el suceso Sensor GPU Board has transitioned to normal state aparece en el registro de sucesos web de
XCC, indica que el problema se ha resuelto.
https://www.intel.com/content/www/us/en/software/
).
329).
"Recopilación de datos de servicio" en la página
329).
"Comprobación de estado de
"Comprobación de estado de
.
Capítulo 8
Determinación de problemas
https://
329