Nvidia Rubin: salto de 5x em inferência e nova era da IA

Nvidia Rubin: arquitetura que redefine desempenho e escala da IA Introdução: a próxima fronteira da computação para IA A evolução recente da inteligência artificial deixou de ser limitada por algoritmos e passou a ser condicionada pela capacidade da infraestrutura computacional de acompanhar modelos cada vez maiores, mais complexos e mais intensivos em dados. Nesse contexto, a Nvidia ocupa um papel central ao concentrar aproximadamente 90% do mercado de chips dedicados à IA, tornando suas decisões arquitetônicas determinantes para todo o ecossistema. Com o anúncio oficial da plataforma Vera Rubin na CES 2026, a Nvidia não apresentou apenas uma nova GPU, mas sinalizou uma mudança profunda na forma como a indústria precisa pensar desempenho, escalabilidade e design de sistemas para IA. Segundo a própria empresa, a GPU Rubin entregará um aumento de cinco vezes no desempenho de inferência NVPF4 e de 3,5 vezes no treinamento, quando comparada à geração Blackwell. Esse salto não ocorre em um cenário trivial. A desaceleração da Lei de Moore impõe limites claros ao crescimento linear de transistores, enquanto a demanda por geração de tokens de IA e redução de custos pressiona arquiteturas existentes. A Rubin surge, portanto, como resposta direta a um problema estratégico: como continuar escalando desempenho em um mundo onde simplesmente “colocar mais transistores” já não é suficiente. Este artigo analisa, de forma técnica e estratégica, o que a arquitetura Nvidia Rubin representa para organizações que dependem de IA em larga escala, explorando seus fundamentos, implicações, riscos e os novos paradigmas de design que emergem com essa geração. O problema estratégico: escalar IA além dos limites da Lei de Moore O desafio estrutural da evolução dos modelos de IA Modelos de IA modernos cresceram em ordens de magnitude nos últimos anos, tanto em parâmetros quanto em volume de dados processados. Esse crescimento cria uma pressão contínua por maior capacidade de inferência e treinamento, especialmente em ambientes corporativos e científicos que operam em escala industrial. Entretanto, conforme destacado pelo próprio CEO da Nvidia, Jensen Huang, a Lei de Moore desacelerou significativamente. O número de transistores adicionados a cada nova geração de chips já não acompanha o ritmo de crescimento dos modelos, criando um descompasso estrutural entre demanda computacional e capacidade física do silício. Esse cenário torna inviável depender exclusivamente de ganhos incrementais tradicionais. Um aumento de 1,6 vezes no número de transistores, como ocorre do Blackwell para o Rubin, não seria suficiente para sustentar aumentos de desempenho da ordem de cinco ou dez vezes exigidos pelo mercado. Consequências da inação arquitetônica Sem uma mudança estrutural no design dos sistemas, organizações enfrentariam custos crescentes, gargalos de desempenho e limitação na viabilidade econômica de aplicações de IA em larga escala. A incapacidade de escalar inferência impacta diretamente modelos generativos, sistemas de recomendação e aplicações que dependem de respostas em tempo quase real. Além disso, a estagnação arquitetônica comprometeria a redução do custo por token, um fator crítico para a viabilidade comercial de soluções de IA. Nesse sentido, a inação não representa apenas um problema técnico, mas um risco estratégico direto para negócios baseados em IA. Fundamentos da solução: a arquitetura Nvidia Rubin Desempenho bruto e métricas divulgadas De acordo com a Nvidia, a GPU Rubin oferecerá 50 petaflops de desempenho de inferência NVPF4, representando um aumento de cinco vezes em relação à Blackwell. No treinamento NVPF4, o desempenho anunciado é de 35 petaflops, um ganho de 3,5 vezes. Esses números são acompanhados por avanços substanciais na subsistema de memória. A Rubin contará com 22 TB/s de largura de banda de memória HBM4, uma melhoria de 2,8 vezes sobre a geração anterior. Esse aspecto é crítico, pois gargalos de memória frequentemente limitam o aproveitamento do poder computacional em cargas de IA. No campo da interconexão, cada GPU Rubin oferecerá 3,6 TB/s de largura de banda NVLink, o dobro do que estava disponível no Blackwell. Esse fator é determinante para arquiteturas multi-GPU e sistemas NVL72, onde a comunicação entre aceleradores define o desempenho global. O papel do processador Vera A plataforma Vera Rubin não se limita à GPU. O processador Vera, baseado em arquitetura Arm, foi projetado para substituir o Grace e, segundo Jensen Huang, oferecerá o dobro de desempenho. Embora a Nvidia não tenha divulgado métricas detalhadas, alguns elementos arquitetônicos foram confirmados. O chip contará com 88 núcleos Olympus personalizados e suportará 176 threads por núcleo por meio da tecnologia de “multithreading espacial” da Nvidia. Essa abordagem indica uma otimização profunda para cargas altamente paralelizáveis, típicas de pipelines de IA. O Vera também incorpora uma conexão NVLink C2C de 1,8 TB/s, 1,5 TB de memória on-chip — três vezes mais que o Grace — e 1,2 TB/s de largura de banda de memória LPDDR5X. Esses números reforçam a estratégia de eliminar gargalos entre CPU e GPU, tratando o sistema como uma entidade coesa. Design colaborativo extremo: rompendo paradigmas tradicionais Por que redesenhar tudo ao mesmo tempo Historicamente, a Nvidia seguia uma regra interna clara: nenhuma nova geração deveria introduzir mais do que uma ou duas mudanças significativas no chip. Essa abordagem reduzia riscos e facilitava a evolução incremental. Contudo, conforme explicado por Huang, esse modelo tornou-se inviável diante da desaceleração da Lei de Moore e da explosão dos modelos de IA. A Rubin representa uma ruptura deliberada, na qual cada componente — GPU, CPU, interconexão, memória e rack — foi redesenhado simultaneamente. Esse “design colaborativo extremo” permite ganhos sistêmicos que não seriam alcançáveis por otimizações isoladas. O aumento de desempenho não vem apenas do silício, mas da integração profunda entre todos os elementos do sistema. O caso do Vera Rubin NVL72 O pod Vera Rubin NVL72 exemplifica essa abordagem. O primeiro rack, apresentado na CES 2026, contém 18 bandejas de computação, nove bandejas NVLink e pesa quase duas toneladas. Segundo a Nvidia, o sistema totaliza 220 trilhões de transistores. Huang afirmou que o projeto consumiu o equivalente a 15.000 anos de engenharia, uma métrica simbólica que ilustra a complexidade e o nível de coordenação necessário para viabilizar essa geração. Esse tipo de sistema não pode ser analisado

Supermicro amplia soluções de IA com GPUs AMD MI355X

    Supermicro expande soluções de IA com GPUs AMD Instinct MI355X e resfriamento a ar Introdução A aceleração da inteligência artificial em ambientes corporativos deixou de ser um movimento experimental para se tornar um imperativo estratégico. Organizações que operam com grandes volumes de dados, modelos avançados de aprendizado de máquina e inferência em escala enfrentam um desafio crescente: como ampliar a capacidade computacional sem comprometer eficiência energética, confiabilidade operacional e compatibilidade com infraestruturas existentes. Nesse contexto, a Supermicro anuncia a expansão de seu portfólio de soluções de IA com a introdução de um novo servidor 10U refrigerado a ar, equipado com GPUs AMD Instinct™ MI355X. Essa abordagem responde diretamente às limitações práticas de muitos data centers corporativos, que não dispõem de infraestrutura de refrigeração líquida, mas ainda assim precisam de desempenho extremo para cargas de trabalho de IA e HPC. A inação frente a esse cenário pode resultar em ciclos de desenvolvimento mais longos, baixa eficiência computacional e dificuldades para escalar inferência e treinamento de modelos. Além disso, decisões inadequadas de infraestrutura podem gerar custos operacionais elevados e limitar a competitividade tecnológica das organizações. Este artigo analisa de forma aprofundada como a nova solução da Supermicro, baseada na arquitetura Data Center Building Block Solutions® (DCBBS) e nas GPUs AMD Instinct MI355X, endereça esses desafios, explorando fundamentos técnicos, implicações estratégicas e critérios de avaliação para ambientes corporativos e provedores de serviços. O desafio estratégico da IA em data centers corporativos Problema estratégico À medida que workloads de IA se tornam mais intensivos em dados e computação, a infraestrutura tradicional de data centers enfrenta limitações claras. A necessidade de maior largura de banda de memória, maior densidade computacional e eficiência energética entra em conflito com restrições físicas, térmicas e operacionais. Para muitas organizações, a adoção de soluções com refrigeração líquida representa uma barreira significativa, exigindo investimentos elevados, mudanças estruturais e maior complexidade operacional. Isso cria um dilema estratégico: como obter desempenho de ponta em IA sem redesenhar completamente o data center. Consequências da inação A ausência de soluções adequadas pode levar à subutilização de modelos de IA, gargalos de inferência e maior tempo de resposta para aplicações críticas. Em setores como serviços em nuvem e ambientes corporativos de grande escala, isso impacta diretamente a capacidade de inovação e o time-to-market. Além disso, sistemas menos eficientes tendem a consumir mais energia por unidade de desempenho, aumentando o custo total de propriedade (TCO) e dificultando iniciativas de sustentabilidade. Fundamentos da solução A Supermicro responde a esse cenário com um servidor 10U refrigerado a ar que integra GPUs AMD Instinct MI355X, projetadas com base na arquitetura CDNA de 4ª geração da AMD. Essa combinação permite atingir níveis elevados de desempenho sem exigir mudanças drásticas na infraestrutura térmica existente. O uso do módulo acelerador OCP (OAM), padrão da indústria, reforça a interoperabilidade e a escalabilidade, permitindo que o sistema se encaixe em arquiteturas modernas de data center. Arquitetura técnica do servidor Supermicro 10U Fundamentos arquitetônicos O servidor 10U da Supermicro foi projetado para maximizar desempenho por rack em ambientes com refrigeração a ar e líquida. Cada GPU AMD Instinct MI355X oferece 288 GB de memória HBM3e, com largura de banda de até 8 TB/s, características essenciais para workloads de IA de grande escala. O aumento do TDP de 1000 W para 1400 W por GPU reflete a capacidade do sistema de sustentar cargas computacionais mais intensas, mantendo estabilidade térmica e confiabilidade operacional. Comparação com gerações anteriores Segundo informações divulgadas, o novo sistema apresenta um aumento de até dois dígitos no desempenho em comparação com o sistema 8U MI350X refrigerado a ar. Além disso, a Supermicro indica uma melhoria de até quatro vezes na computação de IA e até 35 vezes no desempenho de inferência em relação a gerações anteriores. Esses avanços são particularmente relevantes para organizações que precisam acelerar pipelines de IA sem comprometer a previsibilidade operacional. Implementação estratégica A adoção desse servidor permite que empresas integrem desempenho avançado de IA em infraestruturas existentes. Isso reduz riscos de implantação e encurta ciclos de desenvolvimento, um fator crítico para ambientes competitivos. A arquitetura DCBBS da Supermicro facilita a rápida incorporação de novas tecnologias, permitindo ajustes modulares conforme a evolução das cargas de trabalho. Escalabilidade e eficiência energética Desempenho por rack Com a introdução do formato 10U, a Supermicro amplia as opções de densidade computacional para data centers que operam em larga escala. Isso possibilita maior desempenho por rack, um indicador crítico em ambientes onde espaço físico e consumo energético são limitados. Eficiência operacional A capacidade de operar com refrigeração a ar simplifica a gestão térmica e reduz a complexidade operacional. Para muitas organizações, essa abordagem representa um equilíbrio estratégico entre desempenho extremo e eficiência energética. Essa eficiência contribui diretamente para a redução do TCO e para iniciativas de computação verde, alinhando desempenho tecnológico a metas ambientais. Medição de sucesso A eficácia dessa implementação pode ser avaliada por métricas como desempenho de inferência, throughput de treinamento, consumo energético por workload e estabilidade operacional ao longo do tempo. Esses indicadores permitem uma análise objetiva do retorno sobre investimento e da adequação da solução às demandas do negócio. Aplicações em IA, HPC e inferência em escala Cenários de uso As soluções com GPUs AMD Instinct MI355X foram projetadas para provedores de serviços em nuvem e empresas que demandam desempenho máximo em IA e HPC. Isso inclui treinamento de modelos avançados, inferência em tempo real e processamento intensivo de dados. A compatibilidade com infraestruturas existentes amplia o leque de aplicações, reduzindo barreiras de adoção. Interoperabilidade e governança O uso de padrões da indústria, como o OAM, facilita a integração com sistemas existentes e emergentes. Isso é essencial para ambientes que exigem governança rigorosa, conformidade e previsibilidade operacional. A abordagem modular da Supermicro também simplifica atualizações futuras, protegendo o investimento ao longo do tempo. Conclusão A introdução do servidor Supermicro 10U refrigerado a ar com GPUs AMD Instinct MI355X representa um avanço estratégico para organizações que buscam desempenho extremo em IA sem a complexidade da refrigeração líquida. Ao combinar a

AMD e OpenAI firmam aliança estratégica em chips de IA

Introdução A corrida por poder computacional nunca foi tão intensa quanto em 2025. À medida que o avanço da inteligência artificial redefine indústrias inteiras, os chips que sustentam esse ecossistema tornam-se ativos estratégicos de valor incomensurável. O mais recente capítulo dessa disputa foi escrito pela AMD e pela OpenAI, que anunciaram um acordo bilionário para fornecimento de aceleradores de IA com potencial para reconfigurar o equilíbrio de poder no mercado dominado pela Nvidia. O compromisso prevê que a OpenAI adquira até 6 gigawatts em aceleradores da AMD nos próximos cinco anos, com o primeiro lote baseado na GPU Instinct MI450, prevista para o segundo semestre de 2026. Mais do que uma transação comercial, esse acordo reflete a transformação estrutural da infraestrutura de IA — onde a inferência passa a ser o motor econômico central, e a dependência tecnológica torna-se uma vulnerabilidade estratégica. Empresas que não compreenderem as implicações dessa aliança correm o risco de perder competitividade em um mercado em que o controle sobre a capacidade de processamento equivale a dominar o próprio ciclo de inovação. Este artigo aprofunda o contexto, as motivações e as implicações técnicas e empresariais dessa parceria. O problema estratégico: escassez e dependência tecnológica Nos últimos anos, o mercado global de IA enfrentou um problema recorrente: a escassez crônica de GPUs capazes de atender à demanda crescente por treinamento e inferência de modelos de larga escala. A Nvidia, líder incontestável no segmento, viu suas receitas crescerem quase sete vezes em quatro anos, alcançando US$ 130,5 bilhões em 2025. Esse domínio, porém, criou uma dependência estrutural que limita a expansão de empresas emergentes de IA, incluindo a própria OpenAI. Do ponto de vista estratégico, depender de um único fornecedor representa um risco de concentração inaceitável. A Nvidia, mesmo com sua capacidade industrial sem precedentes, não consegue atender à demanda insaciável por aceleradores de IA, criando gargalos que comprometem cronogramas e aumentam custos de operação. Esse cenário levou a OpenAI a diversificar suas fontes de hardware — primeiro com Broadcom e agora com AMD — em busca de resiliência e autonomia tecnológica. Além disso, o foco crescente na inferência de IA — ou seja, na execução prática de modelos em ambiente produtivo — exige arquiteturas otimizadas para eficiência energética e densidade computacional. Essa transição impõe novas exigências aos fornecedores de chips e redefine o que significa “liderança” em aceleração de IA. Consequências da inação Ignorar a necessidade de diversificação de hardware e de investimentos em capacidade de inferência é uma aposta perigosa. A falta de alternativas à Nvidia não apenas cria vulnerabilidade operacional, mas também limita o poder de negociação das empresas consumidoras de chips, concentrando inovação e margem de lucro em um único polo. Para provedores de nuvem, como Microsoft, Google e Meta, a ausência de fornecedores alternativos significa custos crescentes e menor flexibilidade arquitetônica em seus data centers. Para a OpenAI, o impacto é ainda mais direto: sem acesso contínuo a chips de alto desempenho, sua capacidade de oferecer inferência comercial em escala — base de sua receita futura — ficaria comprometida. A consequência estratégica seria dupla: estagnação tecnológica e perda de vantagem competitiva. Em mercados guiados por ciclos rápidos de aprendizado e adaptação, atrasos de meses podem significar anos de desvantagem acumulada. Fundamentos da solução: o papel do MI450 No centro do acordo entre AMD e OpenAI está o Instinct MI450, sucessor da série MI300X, projetado para competir diretamente com os superchips Vera Rubin da Nvidia. A arquitetura do MI450 incorpora avanços em memória de alta largura de banda (HBM4) e densidade de processamento, oferecendo até 432 GB de memória e desempenho superior a 40 PFLOPs em FP4. Essas especificações representam mais do que um salto técnico — são a base de uma nova geração de infraestrutura de inferência, projetada para maximizar throughput, reduzir latência e otimizar consumo energético. Comparado ao Vera Rubin, com 288 GB de HBM4 e 50 PFLOPs, o MI450 oferece uma proposta de equilíbrio entre eficiência, escalabilidade e custo total de propriedade (TCO). Do ponto de vista empresarial, o MI450 posiciona a AMD como uma alternativa concreta em um mercado até então monopolizado. Essa pluralidade de oferta pode catalisar um ciclo virtuoso de inovação, reduzindo preços e aumentando o acesso a tecnologias de ponta para novas empresas e centros de pesquisa. Implementação estratégica: arquitetura e impacto empresarial Implementar o MI450 em escala requer mais do que integração de hardware — envolve planejamento arquitetônico e reengenharia de workloads. As cargas de trabalho de inferência demandam otimização de pipelines de dados, suporte a formatos quantizados como FP4 e integração com frameworks como PyTorch e TensorRT. A AMD, historicamente atrás da Nvidia nesse ecossistema, vem investindo em camadas de software e bibliotecas abertas que reduzam essa distância. Para a OpenAI, a adoção estratégica da linha Instinct representa um movimento de diversificação inteligente. Ao construir infraestrutura com múltiplos fornecedores, a empresa reduz o risco de interrupções de fornecimento e aumenta a resiliência operacional. Além disso, cria condições para testar arquiteturas híbridas, combinando chips AMD e Nvidia de acordo com o perfil de cada workload. Essa abordagem também tem implicações financeiras. A troca por warrants equivalentes a 10% das ações da AMD consolida uma relação de longo prazo, alavancando valor para ambas as partes: a AMD garante demanda previsível e legitimidade no mercado de IA, enquanto a OpenAI obtém prioridade em fornecimento e acesso antecipado a novas gerações de chips. Melhores práticas avançadas e desafios técnicos Embora a adoção do MI450 represente uma oportunidade, sua integração não está isenta de desafios. O principal deles é o ecossistema de software. O domínio da Nvidia não se deve apenas à superioridade de hardware, mas à maturidade do CUDA e de seu stack completo de ferramentas, otimizadas para cada geração de GPU. A AMD precisa consolidar sua plataforma ROCm como um ambiente robusto, compatível e eficiente para execução de cargas de inferência de larga escala. Para isso, empresas como a OpenAI tornam-se parceiras críticas na validação de performance, escalabilidade e interoperabilidade. Cada avanço obtido nesse contexto representa um

Nvidia Rubin CPX: GPU para inferência de IA em contexto massivo

  Nvidia Rubin CPX: potência para inferência de IA em contexto massivo A Nvidia anunciou a GPU Rubin CPX, uma inovação projetada para redefinir os limites da inferência de inteligência artificial (IA) em cenários de contexto massivo. Combinando avanços em computação paralela, largura de banda de memória e integração em arquiteturas de data center, a nova geração de GPUs responde a um desafio estratégico: suportar janelas de contexto que deixam para trás os atuais 250.000 tokens e avançam para a escala de milhões. Este artigo analisa em profundidade o anúncio da Nvidia, destacando os problemas estratégicos que levaram à criação do Rubin CPX, as consequências da inação diante da evolução da inferência de IA, os fundamentos técnicos da solução, a implementação em data centers e os impactos estratégicos para empresas que dependem de IA de última geração. Introdução: a mudança de paradigma da IA Nos últimos anos, o debate em torno da inteligência artificial esteve dominado pelo tema do treinamento de modelos cada vez maiores. No entanto, como observou Ian Buck, vice-presidente e gerente geral de hiperescala e HPC da Nvidia, o foco da comunidade está mudando rapidamente para a inferência, ou seja, a execução prática desses modelos em escala empresarial e consumer. Essa mudança redefine não apenas o software, mas também o hardware que sustenta o ecossistema de IA. A inferência apresenta desafios únicos que diferem do treinamento. Enquanto o treinamento busca maximizar throughput em processos intensivos e previsíveis, a inferência exige equilíbrio entre latência, escalabilidade, custo energético e experiência do usuário. Em cargas emergentes como copilotos de programação e geração de vídeo, a pressão recai sobre a capacidade de processar contextos cada vez mais longos sem comprometer a responsividade. Ignorar essa transição representa riscos significativos para data centers e provedores de serviços de IA. Um atraso na adaptação pode significar perda de competitividade, aumento exponencial de custos operacionais e incapacidade de atender a demandas de clientes em mercados que crescem a dois dígitos. O problema estratégico: inferência de IA em escala massiva A complexidade da inferência se manifesta em múltiplos vetores de otimização. Buck destacou que há um constante trade-off entre throughput e experiência do usuário. É possível maximizar a produção de tokens por segundo em um único fluxo, mas isso pode prejudicar a equidade entre múltiplos usuários simultâneos. Além disso, equilibrar eficiência energética e desempenho se tornou um imperativo em fábricas de IA modernas. Outro desafio central é o delta de desempenho entre as fases de inferência. A fase de pré-preenchimento, onde o modelo processa a entrada do usuário e tokens associados, pode explorar paralelismo massivo nas GPUs. Já a fase de geração, que é autorregressiva, exige execução linear, demandando altíssima largura de banda de memória e interconexões NVLink otimizadas. Esse contraste cria gargalos que comprometem a escalabilidade. A solução atual de muitos data centers, baseada em desagregação via cache KV, permite dividir GPUs entre contexto e geração, mas introduz complexidade de sincronização e limitações à medida que os contextos crescem. Consequências da inação diante da evolução da inferência O crescimento exponencial das janelas de contexto pressiona a infraestrutura existente. Modelos atuais conseguem lidar com cerca de 250.000 tokens, mas aplicações emergentes já projetam a necessidade de ultrapassar a barreira de 1 milhão de tokens. Para copilotos de código, isso significa reter em memória mais de 100.000 linhas, enquanto a geração de vídeo amplia a exigência para múltiplos milhões. A ausência de infraestrutura capaz de lidar com esse salto traz riscos claros: Experiência limitada do usuário: respostas truncadas ou inconsistentes em copilotos e assistentes virtuais. Custos crescentes: uso ineficiente de GPUs ao tentar compensar limitações arquiteturais. Perda de mercado: em setores como entretenimento, cujo valor atual de US$ 4 bilhões pode chegar a US$ 40 bilhões na próxima década. Empresas que não se adaptarem rapidamente correm o risco de ficar para trás em um mercado de alto valor, onde a latência e a precisão determinam não apenas competitividade, mas também confiança do cliente. Fundamentos técnicos da solução Rubin CPX A Nvidia respondeu a esse desafio com a GPU Rubin CPX, baseada na arquitetura Rubin e compatível com CUDA. Diferente das gerações anteriores, ela foi otimizada especificamente para cargas de inferência em contexto massivo, com suporte a milhões de tokens. Capacidade computacional O Rubin CPX entrega 30 petaFLOPs de computação NVFP4, estabelecendo uma base sólida para lidar com inferências massivamente paralelas. Esse poder bruto é fundamental para reduzir a lacuna entre as fases de pré-preenchimento e geração. Memória e largura de banda Equipado com 128 GB de memória GDDR7, o Rubin CPX prioriza largura de banda sobre escalabilidade NVLink em cargas de contexto. Essa escolha arquitetural permite lidar com o peso computacional da fase de pré-processamento de maneira mais eficiente. Aceleradores especializados A Nvidia triplicou os núcleos de aceleração de atenção e dobrou os codificadores/decodificadores de vídeo. Esses aprimoramentos respondem diretamente às necessidades de modelos de atenção longos e geração de vídeo em escala, que são pilares de aplicações emergentes. Implementação estratégica em data centers A GPU Rubin CPX não é um elemento isolado, mas parte de uma estratégia integrada de infraestrutura. A Nvidia anunciou sua incorporação nos sistemas Vera Rubin e DGX, ampliando a capacidade desses ambientes. Vera Rubin NVL144 Esse novo sistema oferecerá 8 exaflops de computação de IA, cerca de 7,5 vezes mais que os atuais GB300 NVL72. Ele combina 100 TB de memória rápida e 1,7 petabytes por segundo de largura de banda de memória em um único rack, estabelecendo um novo patamar de densidade computacional. Rack duplo com Rubin CPX Além disso, a Nvidia disponibilizará uma solução de rack duplo que combina a Vera Rubin NVL144 com um “sidecar” de Rubin CPXs, otimizando a distribuição de cargas entre fases de contexto e geração. Melhores práticas para adoção da Rubin CPX Empresas que avaliam a adoção do Rubin CPX devem considerar alguns pontos estratégicos: Balanceamento de cargas: alinhar GPUs dedicadas ao pré-preenchimento e à geração para minimizar latência. Integração com software: explorar o ecossistema CUDA e frameworks de inferência otimizados. Escalabilidade futura: preparar