Cum remediem erorile: WHEA_UNCORRECTABLE_ERROR, CRITICAL_PROCESS_DIED in Windows Server

Situatie

Aceste două erori de tip Blue Screen of Death (BSOD)—WHEA_UNCORRECTABLE_ERROR (0x00000124) și CRITICAL_PROCESS_DIED (0x000000EF)—reprezintă alerte critice în Windows Server.

Când apar împreună sau consecutiv pe un server, scenariul cel mai probabil indică o instabilitate hardware (procesor, memorie, stocare) care destabilizează sistemul până în punctul în care procese de bază ale Windows-ului (cum ar fi csrss.exe, wininit.exe sau smss.exe) crapă instantaneu.

1. Analiza celor două erori

WHEA_UNCORRECTABLE_ERROR: Windows Hardware Error Architecture. Este o eroare pur hardware. Înseamnă că procesorul (CPU) sau placa de bază a detectat o eroare fizică fatală (de tensiune, magistrală sau cache) pe care sistemul de operare nu o poate corecta prin software.
CRITICAL_PROCESS_DIED: Înseamnă că un serviciu de sistem critic, a cărui oprire forțează oprirea Windows-ului, s-a terminat brusc. Pe servere, acest lucru se întâmplă adesea când controlerul de stocare (SAS/RAID) pierde conexiunea cu discurile pe care este instalat sistemul, blocând citirea/scrierea fișierelor de sistem.

2. Plan de Acțiune Pas cu Pas

Pasul 1: Inspectarea Hardware-ului prin IDRAC / ILO / IMM

Înainte de a modifica ceva în software, verificați logurile de management ale serverului fizic (Dell iDRAC, HPE iLO, Lenovo XClarity):

Accesați consola web de management a serverului.
Navigați la System Event Log (SEL) sau Hardware Logs.
Căutați erori legate de:
- CPU Machine Check Exception (MCE) — confirmă o problemă de procesor sau socket.
- Uncorrectable ECC Memory Error — indică o plăcuță RAM defectă.
- PCIe Bus Error — o placă de rețea, un controller RAID sau un GPU dă semne de oboseală.
- Drive Predictive Failure / Controller cache error.

Pasul 2: Analiza Fișierelor Minidump

Dacă serverul apucă să scrie dump-ul pe disc înainte de repornire:

Descărcați WinDbg (Windows Debugger) pe o stație de lucru.
Copiați fișierul C:\Windows\Minidump\xxxxx.dmp sau C:\Windows\MEMORY.DMP de pe server.
Deschideți fișierul în WinDbg și rulați comanda:

!analyze -v

4. Căutați secțiunea **MODULE_NAME** și **IMAGE_NAME**. 
   * Dacă indică un driver (ex: `megasas35.sys`, `iastorac.sys`, `ntoskrnl.exe`), aveți vinovatul direct (controller stocare sau kernel destabilizat de hardware).
   * Pentru WHEA, rulați `!whea` în debugger pentru a vedea exact registrul CPU sau componenta PCIe raportată defectă.

---

## 3. Metode de Rezolvare Tehnice

### Soluția A: Verificarea și Remedierea Subsistemului de Stocare (Țintește *Critical Process Died*)
Dacă controllerul RAID pierde temporar comunicarea cu discurile din cauza unui firmware instabil sau a unei baterii de cache defecte (BBU), procesele critice mor deoarece nu mai pot citi din `C:\Windows`.

1. **Actualizați Firmware-ul unităților:** Faceți update la firmware-ul controllerului RAID și la SSD-uri/HDD-uri folosind utilitarul oficial al producătorului (ex: *Dell Lifecycle Controller*).
2. **Verificați cablurile și conexiunile:** Într-un mediu controlat (mentenanță), opriți serverul, scoateți și reintroduceți discurile în backplane, și verificați cablurile SAS interne.
3. **Dezactivați Link State Power Management (dacă e cazul):** În Power Options pe Windows Server, setați planul pe **High Performance** și asigurați-vă că PCIe Link State Power Management este pe **Off**.

### Soluția B: Remedierea Instabilității CPU și RAM (Țintește *WHEA*)
1. **Resetare setări BIOS/UEFI:** Intrați în BIOS-ul serverului și asigurați-vă că nu există profile de overclocking activate (rare pe servere, dar posibile prin funcții de tip „Performance Mode” agresive) sau setări greșite de tensiune. Setați profilul pe **Custom** sau **Standard Reliable Performance**.
2. **Testare RAM extinsă:** Programați o fereastră de mentenanță și rulați un test de memorie bare-metal (cum ar fi *MemTest86+* sau utilitarul de diagnostic nativ al serverului HPE/Dell) timp de câteva ore.
3. **Microcode Update:** Asigurați-vă că BIOS-ul serverului este la ultima versiune. Update-urile de BIOS aduc patch-uri de microcod pentru procesoarele Intel/AMD care rezolvă erorile matematice interne ce generează WHEA.

### Soluția C: Verificarea Integrității Fișierelor de Sistem (OS Level)
Dacă hardware-ul este 100% intact în loguri, dar fișierele de sistem au fost corupte în timpul unui update sau din cauza unei opriri bruște de curent:

1. Deschideți **Command Prompt** ca Administrator și executați comanda DISM pentru a repara imaginea de sistem:
   ```cmd
   DISM /Online /Cleanup-Image /RestoreHealth

Rulați System File Checker pentru a înlocui fișierele critice corupte:
DOS
```
sfc /scannow
```

3. Verificați starea discului logici pentru corupții ale sistemului de fișiere NTFS/ReFS:
   ```cmd
chkdsk C: /f /r

(Notă: Va necesita repornirea serverului și poate dura mult în funcție de mărimea volumului).

Solutie

Tip solutie

Permanent

Follow Us