A NVIDIA Enterprise anuncia que está colaborando com os líderes da comunidade de código aberto para disponibilizar a aceleração de GPU de ponta a ponta pela Apache Spark 3.0, um mecanismo de análise para processamento de dados muito usado por mais de 500 mil cientistas de dados no mundo todo.

Com o tão aguardado lançamento da Spark 3.0, pela primeira vez, os cientistas de dados e engenheiros de machine learning poderão aplicar uma aceleração de GPU revolucionária para as cargas de trabalho de processamento de dados de ETL (extract, transform and load | extrair, transformar e carregar, em português) amplamente conduzida com o uso de operação de bancos de dados SQL.

Em outro feito inédito, o treinamento de modelos de IA poderá ser processado no mesmo cluster da Spark, em vez de executar as cargas de trabalho como processos separados em infraestruturas separadas. Isso possibilita a análise de dados de alto desempenho em todo o pipeline de ciência de dados, acelerando de dezenas a milhares de terabytes de dados, do data lake ao treinamento de modelos, sem qualquer alteração no código existente utilizado para aplicações da Spark executados em instalações e na nuvem.

“A análise de dados é o maior desafio da computação de alto desempenho que as empresas e pesquisadores de hoje enfrentam”, afirma Manuvir Das, chefe de Enterprise Computing da NVIDIA. “A aceleração nativa da GPU para todo o pipeline do Spark 3.0 – do ETL ao treinamento e à inferência – fornece o desempenho e a escala necessários para finalmente conectar o potencial de big data com o poder da IA.”

“Spark 3.0 é mais um grande avanço para aprimorar a análise de dados e economizar no tempo necessário e nos custos. Será uma grande adição ao trabalho dos cientistas brasileiros e em toda América Latina”, explica Marcio Aguiar, gerente sênior da NVIDIA Enterprise para América Latina.

Aproveitando sua parceria de IA estratégica com a NVIDIA, a Adobe é um dos inovadores que tem trabalhado com uma versão de visualização da Spark 3.0 em execução no Databricks. A Adobe atingiu uma melhoria de desempenho sete vezes superior e uma economia de custos de 90% em um teste inicial, usando análise de dados acelerada por GPU para desenvolvimento de produtos no Adobe Experience Cloud e recursos de suporte que impulsionam os negócios digitais.

Os ganhos de desempenho no Spark 3.0 aprimoram a precisão do modelo, permitindo que os cientistas treinem modelos com conjuntos de dados maiores e retreinem com mais frequência. Isso torna possível processar terabytes de novos dados todos os dias, o que é fundamental para os cientistas de dados que oferecem suporte a sistemas de recomendação on-line ou analisam novos dados de pesquisa. Além disso, um processamento mais rápido significa que são necessários menos recursos de hardware para fornecer resultados, proporcionando uma economia significativa de custos.

“Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com o Spark em CPUs”, explica William Yan, diretor sênior de machine learning na Adobe. “Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por IA em nosso conjunto completo de aplicações Adobe Experience Cloud.”

Databricks e a NVIDIA trazem mais velocidade para a Spark

A Apache Spark foi originalmente criada pelos fundadores do Databricks, cuja plataforma unificada de análise de dados com base na nuvem é executada em mais de um milhão de máquinas virtuais todos os dias. A NVIDIA e o Databricks também têm colaborado para otimizar o pacote de software RAPIDS™ para o Databricks, levando a aceleração da GPU às cargas de trabalho de ciência de dados e machine learning executadas no Databricks nos setores de saúde, finanças, varejo e muitos outros.

“Nosso trabalho contínuo com a NVIDIA melhora o desempenho com otimizações de RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe”, conta Matei Zaharia, criador original do Apache Spark e tecnólogo chefe da Databricks. “Essas contribuições levam a pipelines de dados, treinamento e pontuação de modelos mais rápidos, que se traduzem diretamente em mais descobertas e insights para a nossa comunidade de engenheiros de dados e cientistas de dados.”

Transferências de dados e ETL mais rápidos na Spark com as GPUs NVIDIA

A NVIDIA está contribuindo para um novo acelerador RAPIDS™ de código aberto para a Apache Spark para ajudar os cientistas de dados a aumentar o desempenho de seus pipelines de ponta a ponta. O acelerador intercepta as funções operadas anteriormente pelas CPUs e, em vez disso, utiliza GPUs para:

  • Acelerar os pipelines de ETL na Spark, melhorando consideravelmente o desempenho das operações de Spark SQL e DataFrame sem precisar de alterações de código.
  • Acelerar a preparação de dados e o treinamento de modelos no mesmo conjunto de infraestruturas, em que um cluster separado não é necessário para machine learning e deep learning.
  • Acelerar o desempenho da transferência de dados em nós em um cluster distribuído da Spark. Essas bibliotecas utilizam a estrutura de código aberto UCX (Unified Communication X) e minimizam a latência, permitindo que os dados se movimentem diretamente entre a memória da GPU.

Uma versão de visualização do Spark 3.0 está disponível agora pela Apache Software Foundation, com uma disponibilidade geral esperada nos próximos meses

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui