2.1.1
Gestión de fallos de la memoria
Hay varias funciones que actúan en la configuración del subsistema de memoria y
la forma en que se gestionan los fallos de la memoria. Es necesario comprender estas
funciones para identificar y reparar los problemas. En esta sección se describe cómo
actúa el servidor con los problemas de la memoria.
Nota – Para obtener información sobre la configuración de la memoria, consulte la
Sección 5.2, "Referencia de la configuración de los FB-DIMM" en la página
El servidor utiliza la tecnología avanzada ECC que corrige hasta 4-bits erróneos de
medio byte, siempre que se encuentren en la misma DRAM. En los módulos FB-DIMM
de 2 GB y 4 GB, si falla una DRAM, el DIMM continúa funcionando.
Las siguientes funciones del servidor gestionan de manera independiente los fallos
de la memoria:
POST: de acuerdo con las variables de configuración de ILOM, las pruebas POST
■
se ejecutan cuando se enciende el servidor.
En el caso de errores corregibles de la memoria (CE), POST envía el error al daemon
de reparación automática predictiva de Solaris (PSH) para su gestión. Si se detecta
un error de memoria no corregible, POST muestra el error con el nombre del
dispositivo cuyo módulo FB-DIMM tiene errores y registra el fallo. POST desactiva
el FB-DIMM defectuoso. Según la configuración de la memoria y la posición del
FB-DIMM defectuoso, POST desactiva la mitad de la memoria física del sistema,
o la mitad de la memoria física y la mitad de hilos del procesador. Cuando ocurra
este proceso de desactivación durante el funcionamiento normal, deberá
reemplazar los FB-DIMM defectuosos de acuerdo con el mensaje de error y activar
los FB-DIMM que se hayan desactivado con el comando de ILOM set dispositivo
component_state=enabled donde dispositivo es el nombre del FB-DIMM que
se desea activar (por ejemplo, set /SYS/MB/CMP0/BR0/CH0/D0
component_state=enabled).
Tecnología de reparación automática predictiva de Solaris (PSH): esta función
■
del sistema operativo Solaris hace uso del daemon Fault Manager (fmd) para
detectar varios tipos de fallos. Cuando ocurre un fallo, se le asigna un ID
exclusivo (UUID) y queda registrado. PSH lo comunica y sugiere una sustitución
de los FB-DIMM asociados con el fallo.
Si sospecha que el servidor tiene un problema de la memoria, siga las indicaciones
del diagrama (consulte la
El comando show faulty enumera los fallos e indica los FB-DIMM específicos
asociados.
). Ejecute el comando show faulty de ILOM.
FIGURA 2-1
Capítulo 2 Diagnósticos del servidor
5-14.
2-7