Stabilaus maitinimo užtikrinimas NVIDIA H200: kaip kondensatoriai apibrėžia naujos kartos dirbtinio intelekto serverių patikimumą

 

Kadangi didelio masto modelių mokymo ir išvadų darymo mastas toliau plečiasi, dirbtinio intelekto greitintuvo kortelės sparčiai pereina į naują itin didelio energijos suvartojimo, itin didelės srovės ir itin žemos įtampos etapą.

Naujos kartos dirbtinio intelekto GPU, kuriam atstovauja „NVIDIA H200“, vienos vaizdo plokštės energijos suvartojimą padidino iki 700 W lygio. Tikrasis iššūkis yra perėjimas nuo „pačios skaičiavimo galios“ prie sistemos lygio energijos tiekimo tinklo (PDN) stabilumo. Šiame kontekste pasyvieji komponentai, ypač kondensatoriai, pereina iš užkulisių į pagrindinę dalį.

Trys realaus pasaulio problemos, kurias sukėlė „H200“

Aparatinės įrangos inžinieriams H200 yra ne tik galingesnis GPU, bet ir išsamus „ekstremalių darbo sąlygų“ testas:

1. Ekstremali trumpalaikė apkrova: Dirbtinio intelekto skaičiavimuose perjungimas tarp neveikos ir pilnos apkrovos vyksta per nanosekundes, o pagrindinė srovė akimirksniu šokteli iki šimtų ar net tūkstančių amperų. Bet koks lėtas atsakas sukels įtampos kritimą, kuris tiesiogiai paveiks skaičiavimo stabilumą.

2. Didelis šilumos tankis ir ilgalaikis veikimas: 700 W energijos suvartojimas sukoncentruotas itin kompaktiškame korpuse ir modulio erdvėje. GPU veikia aukštoje 85–105 °C temperatūroje ilgą laiką ir reikalauja nepertraukiamo veikimo 24 valandas per parą, 7 dienas per savaitę, todėl įrenginio tarnavimo laikas yra itin ilgas.

3. Erdvės apribojimai: GPU ir HBM užima didžiąją dalį plokštės vietos, todėl maitinimo šaltiniams ir atjungimo įrenginiams lieka labai mažai vietos. Didelė talpa, mažas dydis ir mažas ESL/ESR tampa griežtais reikalavimais.

YMIN sprendimai

Tokiose sistemose kondensatoriai nebėra tik „filtravimo įrenginiai“, bet ir kritinė infrastruktūra, užtikrinanti skaičiavimo galios stabilumą:
Pereinamojo laikotarpio energijos palaikymas (atjungimas): kondensatoriai užtikrina kritinę srovės kompensavimą akimirksniu prieš VRM sureaguojant, taip užkertant kelią įtampos kritimui.

Pulsacijos slopinimas: Maitinimo šaltinio triukšmas kontroliuojamas milivoltų lygmenyje esant itin žemai 0,7–0,8 V darbinei įtampai, taip užtikrinant skaičiavimo tikslumą.

Sistemos lygio patikimumo užtikrinimas: ilgalaikio elektros energijos tiekimo tinklo stabilumo palaikymas esant aukštai temperatūrai, didelei apkrovai ir ilgalaikio eksploatavimo sąlygomis.

Dirbtinio intelekto spartinimo platformose, tokiose kaip H200, kondensatorių patikimumas tiesiogiai lemia skaičiavimo galios tvarumą. YMIN atveju kondensatoriai yra ne tik nepriklausomi komponentai, bet ir energijos sistema, veikianti kartu visame dirbtinio intelekto serverio maitinimo kelyje.

YMIN AI serverio kondensatoriaus sprendimo metodas

Susidūrus su H200 lygio iššūkiais, vieno tipo kondensatoriaus nebepakanka.

„YMIN“ teikia išsamų kondensatorių sprendimą, apimantį „maitinimo šaltinį → plokštės lygį → GPU → sistemos atsarginę kopiją“:

1 pav.: YMIN AI serverio kondensatoriaus sprendimo maitinimo schema

企业微信截图_17664567322071

YMIN užtikrina stabilų palaikymą esant ekstremalioms trumpalaikėms apkrovoms, dideliam šilumos tankiui ir veikimui visą parą, diegdamas įvairias kondensatorių technologijas sinergiškai skirtinguose įtampos lygiuose ir dažnių juostose.

企业微信截图_17664593675054

Išvada: Skaičiavimo galios eroje stabilumas yra vienodai svarbus.

Konkurencija dėl dirbtinio intelekto skaičiavimo galios nebėra vien tik GPU gamybos procesai ir architektūros, bet ir maitinimo tinklų patikimumas. Aukštos klasės dirbtinio intelekto platformose, tokiose kaip H200, vieno kondensatoriaus našumas ir tarnavimo laikas gali nulemti viso serverio veikimo stabilumą. YMIN daugiausia dėmesio skiria patikimų ir tvarių kondensatorių sprendimų teikimui dirbtinio intelekto serveriams, užtikrindama, kad kiekvienas skaičiavimo galios vatas būtų pagrįstas stabiliu maitinimo pagrindu.


Įrašo laikas: 2025 m. gruodžio 23 d.