Dramat w serwerowniach – przegrzane chipy, awarie i miliardowe przejęcia, by ochłodzić AI!

Wzrost popularności sztucznej inteligencji (AI) oraz rosnące zapotrzebowanie na outsourcing przechowywania informacji prowadzą do globalnego boomu na centra danych, stwarzając przed branżą kluczowe wyzwanie: jak utrzymać odpowiednią temperaturę.

Ostatnia awaria u największego na świecie operatora giełdowego, CME Group, która wstrzymała handel na popularnej platformie walutowej oraz w kontraktach terminowych obejmujących waluty, surowce, obligacje skarbowe i akcje, skierowała uwagę na problem przegrzewania się centrów danych. Problem ten dotyczył kwestii chłodzenia w centrach danych obsługiwanych przez firmę CyrusOne z Dallas, która zarządza ponad 55 ośrodkami w USA, Europie i Japonii, a awaria wystąpiła w centrum danych w pobliżu Chicago. CyrusOne zapewniło, że zespoły inżynierów są na miejscu, aby przywrócić system chłodzenia do pełnej sprawności.

Gorączka w serwerowniach AI

Serwery AI i chmurowe o dużej mocy obliczeniowej, przetwarzające dane, wymagają ogromnych ilości energii, co generuje intensywne ciepło, z którym tradycyjne systemy chłodzenia powietrzem często sobie nie radzą. Centra danych zawierają ułożone w szafach serwery, które są stale włączone i zużywają energię. Jak tłumaczy Daniel Mewton, partner w firmie Slaughter and May, która zajmuje się infrastrukturą, energią i zasobami naturalnymi, w miarę jak serwery nagrzewają się, wymagają ciągłego chłodzenia, zaś układy scalone w centrach danych muszą utrzymywać określoną temperaturę, gdyż w przeciwnym razie albo działają nieprawidłowo, albo wyłączają się.

Szacuje się, że aż do 40% całkowitego zużycia energii w centrach danych przeznaczane jest na ich chłodzenie. W odpowiedzi na te wyzwania coraz więcej centrów rozważa stosowanie wody lub specjalistycznych płynów chłodzących zamiast powietrza, ponieważ chłodzenie cieczą może być nawet 3000 razy bardziej wydajne w usuwaniu ciepła. Niemniej jednak, chłodzenie cieczą niesie ze sobą własne wyzwania, w tym potencjalne wycieki, korozję i potrzebę specjalistycznej konserwacji, a także może być bardzo wodochłonne. Firmy poszukują sposobów na ograniczenie zużycia zewnętrznych płynów chłodzących. I tak firma Microsoft w zeszłym roku wprowadziła nową konstrukcję centrum danych, która zużywa zero wody do chłodzenia, wykorzystując recykling wody w obiegu zamkniętym, krążącej między serwerami a agregatami chłodniczymi. Rozważane są także systemy odzysku i ponownego wykorzystania ciepła odpadowego z centrów danych.

Jak często zdarzają się awarie?

W kontekście częstotliwości takich zdarzeń Mewton zauważył, że awarie centrów danych są generalnie „niezwykle rzadkie” ze względu na wymagania, nakładające na operatorów obowiązek utrzymania ich w trybie online niemal przez cały czas, często wymagane jest działanie przez ponad 99,99% czasu. Choć awarie ogółem są dość niezwykłe, to specyficzne problemy bezpośrednio wpływające na systemy chłodzenia są „jeszcze rzadsze”, a Mewton najczęściej słyszy o problemach z zasilaniem. Światowy apetyt na centra danych wywołał falę transakcji w całej branży, ponieważ firmy ścigają się, aby zbudować zdolności do zaspokojenia gwałtownego wzrostu zapotrzebowania na energię i chłodzenie. Warto zauważyć, że w listopadzie firma zarządzająca energią Eaton ogłosiła zamiar zakupu działu systemów termicznych Boyd Corporation od Goldman Sachs Asset Management za 9,5 miliarda USD, co jest częścią dążenia do zaspokojenia popytu wywołanego przez AI.