À medida que a IA transforma tudo, desde os mecanismos de pesquisa até a logística, seus custos ocultos estão se tornando cada vez mais difíceis de ignorar, especialmente no data center. A energia necessária para executar a IA generativa está empurrando a infraestrutura além do que o resfriamento tradicional de ar pode suportar.
Com décadas de experiência na criação de grandes data centers, eles agora estão focados em resolver as demandas de energia e resfriamento da IA. Desde a falha dos sistemas de ar até a promessa de novo resfriamento híbrido, eles explicaram por que a IA está forçando os data centers a uma nova era.
Quais são os maiores desafios no resfriamento de um data center?
Stephen Spinazzola: Os maiores desafios nos data centers de refrigeração são poder, água e espaço. Com a computação de alta densidade, como os data centers que executam inteligência artificial, vem o calor imenso que não pode ser resfriado com um sistema convencional de resfriamento de ar.
As cargas típicas do gabinete dobraram e triplicaram com a implantação da IA. Um sistema de resfriamento de ar simplesmente não pode capturar o calor gerado pelas altas cargas de KW/ gabinete geradas por aglomerados de gabinete de IA.
Realizamos dinâmica de fluido computacional (CFD) em inúmeras salas de data center e um sistema de resfriamento de ar mostra altas temperaturas acima dos níveis aceitáveis. Os fluxos de ar que mapeamos com CFD mostram níveis de temperatura acima de 115 graus F. Isso pode resultar em servidores desligados.
O resfriamento da água pode ser feito em um espaço menor com menos energia, mas requer uma quantidade enorme de água. Um estudo recente determinou que uma única instalação hiper-escala precisaria de 1,5 milhão de litros de água por dia para fornecer resfriamento e umidificação.
Essas limitações apresentam grandes desafios aos engenheiros, planejando a nova geração de data centers que podem suportar a demanda sem precedentes que estamos vendo para a IA.
Como a IA está mudando a norma quando se trata de dissipação de calor do data center?
Stephen Spinazzola: Com a modelagem do CFS mostrando servidores em potencial desligando com o resfriamento de ar convencional em clusters de gabinete de IA, é necessária a necessidade de resfriamento direto de líquido (DLC). A IA é normalmente implantada em 20 a 30 aglomerados de gabinete a mais de 40 kW ou acima do gabinete. Isso representa um aumento de quatro vezes no KW/ gabinete com a implantação da IA. A diferença é impressionante.
Uma consulta típica de bate-papo usa cerca de 10 vezes mais energia do que uma pesquisa no Google-e isso é apenas para uma função generativa básica de IA. As consultas mais avançadas exigem substancialmente mais energia que precisam passar por uma fazenda de cluster de IA para processar a computação em larga escala entre várias máquinas.
Isso muda a maneira como pensamos sobre o poder. Consequentemente, as demandas de energia estão mudando a indústria para utilizar mais técnicas de resfriamento líquido do que o resfriamento tradicional do ar.
Falamos muito sobre refrescar, que tal fornecer poder real?
Daren plural: Existem dois novos desafios abrangentes para fornecer energia à computação de IA: como mover a energia das placas de saída da UPS para racks de alta densidade e como fornecer criativamente altas densidades de energia da UPS da utilidade.
A energia para os racks ainda é realizada com circuitos de ramificação, desde PDUs de distribuição até PDUs de rack (tiras de plugue) ou com a via de plug-in sobre os racks com o PDUs no rack conectado à via de ônibus em cada rack. A nuance agora é o que a ampacidade da Busway faz sentido com a faixa e o que está disponível comercialmente.
Mesmo com a via de ônibus plug-in disponível com uma ampacidade de 1.200 A, a densidade de energia está forçando a implantação de uma quantidade maior de circuitos de via de viagens separados para atender aos requisitos de densidade e de tira. A distribuição de energia complicante adicional é a necessidade específica e variável de usuários finais individuais de data center do monitoramento do circuito de ramificação ou preferências de distribuição.
Dependendo das restrições do local, os projetos de resfriamento do data center podem apresentar UPs de média tensão. Impulsionados por preocupações com queda de tensão, o MV UPS resolve preocupações com a necessidade de ter bancos de ductos de alimentação muito grandes, mas também introduz novas subestações de tensão de média tensão/utilização no programa. E ao considerar UPs de tensão média, outra consideração é a aplicabilidade dos sistemas de UPs rotativos MV vs. soluções estáticas MV.
Quais são as vantagens/desvantagens das várias técnicas de refrigeração?
Stephen Spinazzola: Existem dois tipos de DLC no mercado hoje. Resfriamento de emersion e placa fria. O resfriamento da Emerion usa grandes tanques de um fluido não condutor, com os servidores posicionados verticalmente e totalmente emeridos no líquido.
O calor gerado pelos servidores é transferido para o fluido e depois transferido para o sistema de água refrigerado com um trocador de calor de circuito fechado. Os tanques de emersion ocupam menos espaço, mas requerem servidores configurados para esse tipo de resfriamento.
O resfriamento a frio usa um dissipador de calor preso à parte inferior da pilha de chip que transfere a energia da pilha de chip para um fluido que é canalizado por todo o gabinete. O fluido é então encanado para uma unidade de distribuição de resfriamento da linha (CDU) que transfere a energia para o sistema de água refrigerada do edifício.
A CDU contém um trocador de calor para transferir energia e bombas 2N no lado secundário do trocador de calor para garantir o fluxo contínuo do fluido para os servidores. O resfriamento da placa fria é eficaz no resfriamento do servidor, mas requer uma enorme quantidade de conexões de tubo fluido que devem ter desconectar a tecnologia de parada de vazamentos.
O resfriamento de ar é uma técnica comprovada para os data centers de resfriamento, que existe há décadas; No entanto, é ineficiente para os racks de alta densidade necessários para resfriar os data centers da IA. À medida que as cargas aumentam, fica mais difícil à prova de falhas usando a modelagem CFD.
Você está apresentando um cooler diferente, como funciona e quais são os desafios atuais para a adoção?
Stephen Spinazzola: Nossa solução de projeto de decreto híbrido/adiabaticcooling (HDAC) pendente de patente (HDAC) fornece exclusivamente duas temperaturas de fluido de resfriamento de um único loop fechado, permitindo um fluido de temperatura mais alta para resfriar os servidores DLC e um fluido de temperatura mais baixa para resfriamento de ar convencional.
Como o HDAC utiliza simultaneamente 90 % menos água do que um sistema de torre refrigerador e 50 % menos energia do que um sistema de resfriamento refrigerado a ar, conseguimos obter a figura mais importante do uso de energia (PUE) para o número de dados de hipercala que é necessário para processar IA. Os data centers típicos de IA produzem uma pue variando de 1,2 a 1,4.
Com a pue inferior, o HDAC fornece uma potência de TI aproximada de 12% mais utilizável do mesmo tamanho de alimentação do tamanho de energia utilitária. Os benefícios econômicos e ambientais são significativos. Com um sistema que fornece um benefício econômico e ambiental, o HDAC requer apenas “um gole de água”.
O desafio para a adoção é simples: ninguém quer ir primeiro.
Você também pode gostar