Avanço em inferência da NVIDIA torna a IA de conversação mais esperta e interativa, da nuvem até a borda
TensorRT 8 fornece o melhor desempenho de inferência em IA do mundo a empresas líderes nas áreas da saúde, setor automotivo e financeiro
Líderes de vários setores adotaram o TensorRT
graças à sua capacidade na inferência de deep learning – Divulgação
Santa Clara, Califórnia — 20 de julho de
2021 — A NVIDIA
Enterprise lança o TensorRT ™ 8, a oitava geração do software de Inteligência
Artificial da companhia, que reduz o tempo de inferência pela metade para
consultas de idioma, permitindo que os desenvolvedores construam os melhores
mecanismos de busca, recomendações de anúncios e chatbots do mundo,
disponibilizando-os da nuvem à borda.
As otimizações do TensorRT 8 oferecem
velocidade recorde para aplicações de linguagem, executando o BERT-Large, um
dos modelos de machine
learning transformer
mais usados do mundo, em 1,2 milissegundos. No passado, as empresas tinham que
reduzir o tamanho do modelo, o que apresentava resultados significativamente
menos precisos. Agora, com o TensorRT 8, as empresas podem dobrar ou triplicar
o tamanho do modelo para obter drásticas melhorias em precisão.
"Os modelos de IA estão ficando
cada vez mais complexos, e a demanda mundial por aplicações em tempo real que
usam Inteligência Artificial também está aumentando rapidamente. Por isso, é
fundamental que as empresas implantem soluções de inferência de última geração.
No último ano, o número de empresas que usaram o TensorRT dobrou, e o número de
desenvolvedores triplicou, o que mostra a velocidade e a precisão incomparáveis
que podem ser garantidas com essa tecnologia", afirma Greg Estes,
vice-presidente de programas de desenvolvedores da NVIDIA.
Em cinco anos, mais de 350 mil
desenvolvedores de 27,5 mil empresas em diversas áreas, como saúde, setor
automotivo, finanças e varejo, fizeram download do TensorRT 2,5 milhões de
vezes. As aplicações TensorRT podem ser implantados em data centers hyperscale, embutidos e em
plataformas de produtos automotivos.
Confira as inovações em inferência
Além das otimizações do transformador,
os avanços do TensorRT 8 na inferência de IA são possíveis por meio de dois
outros recursos principais:
A dispersão
é uma técnica nova de desempenho das GPUs da arquitetura NVIDIA Ampere que
aumenta a eficiência, permitindo que os desenvolvedores acelerem as redes
neurais e reduzam as operações computacionais.
O treinamento
com quantização permite que os desenvolvedores usem modelos
treinados para executar inferências com a precisão INT8 sem reduzir a exatidão.
Com isso, a sobrecarga da computação e do armazenamento diminui
significativamente, garantindo inferências eficientes em Tensor Cores.
Amplo suporte da indústria
Líderes de vários setores adotaram o
TensorRT graças à sua capacidade na inferência de deep learning em conversações
à base de IA e em sorte de outros campos.
A Hugging Face, líder em IA de código
aberto e uma confiável parceira dos maiores fornecedores de serviços de IA do
mundo em vários setores, está colaborando com a NVIDIA para ajudar a lançar
aplicações inovadoras de IA de conversação que permitem análise de texto,
pesquisa neural e aplicativos de conversação em escala.
"Estamos trabalhando de perto com a
NVIDIA para oferecer o melhor desempenho possível para modelos de última
geração nas GPUs NVIDIA. A API Hugging Face Accelerated Inference já oferece
uma aceleração de até 100 vezes para modelos de transformadores com GPUs NVIDIA
A100. Com o TensorRT 8, a Hugging Face atingiu uma latência de inferência
inferior a 1ms no BERT. Esperamos oferecer esse desempenho aos nossos clientes
ainda neste ano", conta Jeff Boudier, vice-presidente de produtos da
Hugging Face.
A GE Healthcare, uma das principais
inovadoras mundiais em tecnologias médicas, diagnósticos e soluções digitais,
usa o TensorRT para ajudar médicos a oferecer atendimento da mais alta
qualidade por meio de soluções inteligentes em saúde.
"Nos exames de ultrassom, os
médicos passam muito tempo selecionando e avaliando imagens. No projeto de
P&D do lançamento da linha Vivid Patient Care Elevated, precisávamos de um
processo mais eficiente e implementamos a detecção automatizada de imagens do
coração no sistema Vivid E95. O algoritmo de reconhecimento de imagens do
coração seleciona as melhores opções para análise das contrações do órgão.
Graças aos recursos de inferência em tempo real, o TensorRT, melhorou o
desempenho do algoritmo de detecção de imagens e diminuiu o tempo de lançamento
no mercado durante o projeto de P&D", afirma Erik Steen, líder de
engenharia de ultrassom cardiovascular da GE Healthcare.
Disponibilidade
O TensorRT 8 já está disponível
gratuitamente para os membros do Programa de
Desenvolvedores NVIDIA. As versões mais atuais e livres dos plug-ins,
analisadores e exemplos também estão disponíveis no repositório do TensorRT no GitHub.
Sobre a NVIDIA
A invenção da GPU pela NVIDIA (NASDAQ: NVDA), em 1999,
estimulou o crescimento do mercado de games para PC e redefiniu a computação
gráfica moderna, computação de alto desempenho e Inteligência Artificial. O
trabalho pioneiro da empresa em computação acelerada e IA tem revolucionado
setores de trilhões de dólares, como transporte, saúde e manufatura, enquanto
incentiva o crescimento de muitos outros mercados. Saiba mais em http://nvidianews.nvidia.com/
Acesse também:
Site oficial da NVIDIA no Brasil: https://www.nvidia.com/pt-br/
Facebook: @NVIDIABrasil
Twitter: @NVIDIABrasil
Nenhum comentário