Novas instâncias de computação da OCI aceleradas pela GPU NVIDIA L40S já estão disponíveis para pedidos
As empresas estão rapidamente adotando a IA generativa, os grandes modelos de linguagem (LLMs), os gráficos avançados e os digital twins para aumentarem as eficiências operacionais, reduzirem os custos e estimularem a inovação.
Entretanto para adotarem essas tecnologias com eficiência, as empresas precisam de acesso ao que há de melhor em plataformas de computação aceleradas de pilha completa. Para atender a essa demanda, a Oracle Cloud Infrastructure (OCI) anuncia que instâncias bare-metal da GPU NVIDIA L40S já estão disponíveis para pedidos, além da disponibilidade vindoura de uma nova máquina virtual acelerada por uma só GPU NVIDIA H100 Tensor Core. Essa nova VM expande o portfólio da H100 já existente da OCI, que inclui uma instância bare-metal com oito GPUs NVIDIA HGX H100.
Combinadas à rede NVIDIA e executando a pilha de software NVIDIA, essas plataformas oferecem desempenho e eficiência potentes, permitindo que as empresas tenham mais avanços na IA generativa.
A NVIDIA L40S já está disponível para pedidos na OCI
A NVIDIA L40S é uma GPU de data center universal projetada para oferecer aceleração revolucionária para várias cargas de trabalho, para uso em aplicações de IA generativa, gráficos e vídeo. Equipada com Tensor Cores de quarta geração e suporte ao formato de dados FP8, a GPU L40S é excelente para treinamento e ajuste fino de grandes modelos de linguagem (LLMs) de pequeno a médio portes e para inferência em uma vasta gama de casos de uso de IA generativa.
Por exemplo, uma única GPU L40S (FP8) pode gerar até 1,4x mais tokens por segundo do que uma única GPU NVIDIA A100 Tensor Core (FP16) para Llama38B com NVIDIA TensorRT-LLM a uma sequência de entrada e saída de 128.
A GPU L40S também tem a melhor aceleração do setor para gráficos e mídia. Seus NVIDIA Ray Tracing Cores (RT Cores) de terceira geração e vários mecanismos de codificação/decodificação fazem com que ela seja a ideal para aplicações de visualização avançada e digital twin.
A GPU L40S entrega até 3,8x o desempenho de ray tracing em tempo real de sua predecessora e suporta NVIDIA DLSS 3 para renderização mais rápida e taxas de quadro mais suaves. Isso faz dela a GPU ideal para o desenvolvimento de aplicações na plataforma NVIDIA Omniverse, habilitando simulações 3D fotorrealistas em tempo real e digital twins habilitados por IA. Com o Omniverse na GPU L40S, as empresas podem desenvolver aplicações e fluxos de trabalho 3D avançados para digitalização industrial que permitirão projetarem, simularem e otimizarem produtos, processos e instalações em tempo real antes de começarem a produção.
A OCI oferecerá as GPUs L40S em seu formato de computação bare-metal BM.GPU.L40S.4, contando com quatro GPUs NVIDIA L40S, cada uma com 48 GB de memória GDDR6. Esse formato inclui unidades NVMe locais com capacidade de 7,38 TB, CPUs Intel Xeon de quarta geração com 112 núcleos e 1 TB de memória do sistema.
Esses formatos eliminam o custo indireto de qualquer virtualização para cargas de trabalho de IA de alto rendimento e sensíveis à latência ou de machine learning com a arquitetura de computação bare-metal da OCI. O formato de computação acelerada conta com a DPU NVIDIA BlueField-3 para melhor eficiência do servidor, liberando as CPUs das tarefas de data center para acelerar as cargas de trabalho de rede, armazenamento e segurança. O uso das DPUs BlueField leva ainda mais longe a estratégia da OCI de virtualização pronta para usar em toda a sua frota.
O OCI Supercluster com NVIDIA L40S habilita um desempenho ultra-alto com largura de banda entre nós de 800 Gbps e baixa latência para até 3.840 GPUs. A rede de cluster da OCI usa placas de interface de rede NVIDIA ConnectX-7 sobre RoCE v2 para suportar cargas de trabalho de alto rendimento e sensíveis à latência incluindo treinamento de IA.
VMs com uma GPU H100 chegando em breve à OCI
O formato de máquina virtual para computação VM.GPU.H100.1 acelerado por uma única GPU NVIDIA H100 Tensor Core chegará em breve à OCI. Isso oferecerá acesso sob demanda com ótimo custo-benefício para empresas procurando usar a potência das GPUs NVIDIA H100 para suas cargas de trabalho de IA generativa e HPC.
Uma única H100 já é capaz de oferecer uma boa plataforma para cargas de trabalho menores e inferência de LLM. Por exemplo, uma GPU H100 pode gerar mais de 27.000 tokens por segundo para Llama 3 8B (até 4x mais rendimento do que uma única GPU A100 com precisão FP16) com NVIDIA TensorRT-LLM em um comprimento de sequência de entrada e saída de 128 e precisão FP8.
O formato VM.GPU.H100.1 inclui 2x 3,4 TB de capacidade de unidade NVMe, 13 núcleos de processadores Intel Xeon de quarta geração e 246 GB de memória do sistema, tornando-o adequado para uma gama de tarefas de IA.
Instâncias bare-metal GH200 disponíveis para validação
A OCI também disponibilizou o formato de computação BM.GPU.GH200 para testes dos clientes. Ele conta com o superchip NVIDIA Grace Hopper e NVLink-C2C, uma conexão de alta largura de banda com coerência de cache de 900 GB/s entre a CPU NVIDIA Grace e a GPU NVIDIA Hopper. Isso permite mais de 600 GB de memória acessível, habilitando um desempenho até 10x maior para aplicações executando terabytes de dados em comparação com a GPU NVIDIA A100.
Software otimizado para a IA empresarial
As empresas têm uma grande variedade de GPUs NVIDIA para acelerarem suas cargas de trabalho de IA, HPC e análise de dados na OCI. Entretanto, maximizar todo o potencial dessas instâncias de computação aceleradas por GPU exige uma camada de software otimizada.
Os NVIDIA NIM, parte da plataforma de software NVIDIA AI Enterprise disponível no marketplace da OCI, são um conjunto de microsserviços fáceis de usar projetados para implantação segura e confiável de inferência de modelo de IA de alto desempenho para se implantarem aplicações de IA generativa de classe mundial.
Otimizados para as GPUs NVIDIA, os contêineres pré-fabricados NIM oferecem aos desenvolvedores melhor custo de propriedade, mais rapidez para chegada ao mercado e segurança. Os microsserviços NIM para modelos populares na comunidade, encontrados no catálogo de APIs da NVIDIA, podem ser facilmente implantados na OCI.
O desempenho continuará a melhorar com o tempo, com as futuras instâncias aceleradas por GPU, incluindo as GPUs NVIDIA H200 Tensor Core e GPUs NVIDIA Blackwell.
Para encomendar a GPU L40S e testar o superchip GH200, entre em contato com a OCI. Para saber mais, junte-se à Oracle e à NVIDIA na SIGGRAPH, a principal conferência gráfica do mundo.