Durante la conferenza GTC, NVIDIA svelato NVIDIA NIM, a piattaforma software progettata per semplificare l’integrazione di modelli IA personalizzati e pre-addestrati nelle impostazioni operative. NIM sfrutta l’esperienza di NVIDIA nell’inferenza e nell’ottimizzazione dei modelli, offrendo un approccio accessibile unendo qualsiasi modello selezionato con un motore di inferenza ottimizzato e incapsulando questa combinazione all’interno di un contenitore, fornendolo successivamente come microservizio.
NVIDIA lo sostiene ciò che normalmente richiederebbe agli sviluppatori diverse settimane o mesi per essere realizzato in termini di distribuzione dei contenitori può essere accelerato tramite NIM, soprattutto negli scenari in cui un’azienda potrebbe non avere competenze interne in materia di intelligenza artificiale. L’obiettivo strategico di NVIDIA con NIM è quello di promuovere una rete di contenitori preparati per l’intelligenza artificiale costruiti sulla sua infrastruttura hardware, con questi microservizi specializzati che fungono da componente software principale per le organizzazioni desiderose di accelerare le proprie iniziative di intelligenza artificiale.
Attualmente, NIM estende il supporto ai modelli provenienti da NVIDIA, A121, Adept, Cohere, Getty Images e Shutterstock, oltre ai modelli open source di Google, Hugging Face, Meta, Microsoft, Mistral AI e Stability AI. NVIDIA sta collaborando attivamente con Amazon, Google e Microsoft per rendere accessibili i microservizi NIM tramite SageMaker, Kubernetes Engine e AI di Azure, corrispondentemente. Questi servizi sono pronti per essere incorporati in piattaforme come Deepset, LangChain e LlamaIndex.
“Crediamo che la GPU NVIDIA sia il posto migliore su cui eseguire l’inferenza di questi modelli […]e crediamo che NVIDIA NIM sia il miglior pacchetto software, il miglior runtime, su cui gli sviluppatori possono basarsi per concentrarsi sulle applicazioni aziendali”, ha affermato Manuvir Das, responsabile dell’enterprise computing di NVIDIA, durante una conferenza stampa prima gli annunci di oggi.
Per quanto riguarda il motore di inferenza, NVIDIA prevede di implementare il Server di inferenza Tritonaccanto TensorRT e TensorRT-LLM per le sue operazioni. Tra le offerte che NVIDIA fornisce tramite NIM ci sono Riva, progettato per personalizzare modelli di discorso e traduzione, cuOpt per migliorare i processi di routing e il modello Terra-2sviluppato per simulazioni avanzate di previsioni meteorologiche e climatiche.

NVIDIA è impegnata ad ampliare la propria suite di servizi, introducendo progressivamente nuove funzionalità. Una prossima aggiunta è l’operatore NVIDIA RAG LLM come servizio NIMvolto a semplificare la creazione di chatbot con intelligenza artificiale generativa in grado di incorporare dati personalizzatifacilitando notevolmente il processo di sviluppo.
Sottolineando l’importanza della comunità e delle partnership, la conferenza ha anche messo in luce gli impegni con aziende leader come Box, Cloudera, Cohesity, Datastax, Dropbox e NetApp utilizzano attualmente i servizi NIM.
“Le piattaforme aziendali consolidate poggiano su una miniera d’oro di dati che possono essere trasformati in copiloti di intelligenza artificiale generativa. Creati con il nostro ecosistema di partner, questi microservizi AI containerizzati rappresentano gli elementi fondamentali per consentire alle aziende di ogni settore di diventare società di intelligenza artificiale”, ha affermato Jensen Huang, CEO di NVIDIA.
Cosa fa realmente NVDIA NIM?
Fondamentalmente, un NIM costituisce un contenitore pieno di microservizi. Questo contenitore è in grado di incorporare qualsiasi tipo di modello, da open source a proprietario, a condizione che funzioni su una GPU NVIDIA, sia che sia ospitata nel cloud o semplicemente all’interno di un laptop. Di conseguenzail container può essere distribuito in qualsiasi ambiente che supporti i container, comprese le configurazioni Kubernetes nel cloud, nei server Linux o anche all’interno di framework Function-as-a-Service serverless. NVIDIA è pronta a introdurre una funzionalità serverless nel suo prossimo lancio ai.nvidia.com portale, offrendo agli sviluppatori una via per interagire con NIM prima della sua implementazione.
È importante notare, NIM non mira a soppiantare nessuna delle precedenti metodologie di distribuzione dei modelli di NVIDIA. Si tratta invece di un contenitore specializzato che racchiude un modello altamente raffinato su misura per le GPU NVIDIA, insieme alle tecnologie essenziali per migliorare le prestazioni di inferenza.
La questione urgente riguarda il passaggio alla produzione. Come è possibile far avanzare i prototipi iniziali, sviluppati con la nostra assistenza, per fornire risultati aziendali tangibili attraverso l’implementazione della produzione utilizzando questi modelli? NVIDIA, insieme a un consorzio di importanti fornitori di dati, considera NIM una soluzione a questo dilemma. La funzionalità del database vettoriale è fondamentale per l’attivazione di RAG, supportata da vari fornitori di database vettoriali, tra cui Apache Lucene, Datastax, Faiss, Kinetica, Milvus, Redis e Weaviate.
Credito immagine in primo piano: Kerem Gülen/DALL-E 3