Nota – En un entorno LDoms, los errores irrecuperables en un dominio de invitado
LDoms sin control no están sujetos a este problema.
Por ejemplo, un error irrecuperable en el dominio de control produce un aviso grave
de Solaris. A la consola de dominio de control se envían mensajes como los siguientes:
SUNW-MSG-ID: SUNOS-8000-0G, TYPE: Error, VER: 1, SEVERITY: Major
EVENT-TIME: 0x46c61864.0x318184c6 (0x1dfeda2137e)
PLATFORM: SUNW,SPARC-Enterprise-T5220, CSN: -, HOSTNAME: wgs48-100
SOURCE: SunOS, REV: 5.10 Generic_Patch
DESC: Errors have been detected that require a reboot to ensure system
integrity.
See http://www.sun.com/msg/SUNOS-8000-0G for more information.
AUTO-RESPONSE: Solaris will attempt to save and diagnose the error telemetry
IMPACT: The system will sync files, save a crash dump if needed, and reboot
REC-ACTION: Save the error summary below in case telemetry cannot be saved
O bien, un error irrecuperable produce la interrupción del firmware y el envío de
mensajes como los siguientes a la consola de SP cuando se inicia la sesión en la
consola de la CLI de compatibilidad de ALOM CMT:
Aug 17 22:09:09 ERROR: HV Abort: <Unknown?> (228d74) - PowerDown
Una vez recuperado el dominio de control se realiza un diagnóstico. Los mensajes
remitidos a la consola indican la causa del error irrecuperable. Por ejemplo:
SUNW-MSG-ID: SUN4V-8000-UQ, TYPE: Fault, VER: 1, SEVERITY: Critical
EVENT-TIME: Fri Aug 17 18:00:57 EDT 2007
PLATFORM: SUNW,SPARC-Enterprise-T5220, CSN: -, HOSTNAME: wgs48-100
SOURCE: cpumem-diagnosis, REV: 1.6
EVENT-ID: a8b0eb18-6449-c0a7-cc0f-e230a1d27243
DESC: The number of level 2 cache uncorrectable data errors has exceeded
acceptable levels. Refer to http://sun.com/msg/SUN4V-8000-UQ for more
information.
AUTO-RESPONSE: No automated response.
IMPACT: System performance is likely to be affected.
REC-ACTION: Schedule a repair procedure to replace the affected resource,
the identity of which can be determined using fmdump -v -u <EVENT_ID>.
En este punto puede haberse encontrado el problema. Ello evitará que se transporten
al dominio y se diagnostiquen adecuadamente futuros eventos de PSH (por ejemplo,
nuevos errores de hardware, corregibles o no).
Capítulo 2
Novedades de última hora
53