NVIDIA ha presentato un importante progresso nell’addestramento dei modelli IA con il lancio di Trasformatore normalizzato (nGPT). Questa nuova architettura, progettata per migliorare il processo di addestramento per modelli linguistici di grandi dimensioni (LLM), ha il potenziale per accelerare i tempi di addestramento da 4 a 20 volte, il tutto mantenendo la stabilità e l’accuratezza del modello. Il modello nGPT semplifica il processo di formazione, utilizzando meno risorse e offrendo una soluzione più efficiente per lo sviluppo dell’IA.
Ciò che rende diverso nGPT: apprendimento ipersferico
Al centro dell’efficienza di nGPT c’è un concetto chiamato apprendimento della rappresentazione ipersferica. Nei modelli tradizionali dei trasformatori, i dati vengono spesso elaborati senza una struttura geometrica coerente. nGPT di NVIDIA cambia questa situazione mappando tutti i componenti chiave, come incorporamenti, matrici di attenzione e stati nascosti, sulla superficie di un’ipersfera. Questa configurazione geometrica aiuta a garantire che tutti gli strati del modello rimangano bilanciati durante l’addestramento, creando un processo di apprendimento più stabile ed efficiente.
Questo approccio riduce significativamente il numero di fasi di formazione. Invece di applicare il decadimento del peso direttamente ai pesi del modello come i modelli precedenti, nGPT si basa su parametri di scala appresiche ottimizzano il modo in cui il modello si adatta durante l’addestramento. È importante sottolineare che questo metodo elimina la necessità di altre tecniche di normalizzazione come LayerNorm O Norma RMSrendendo il processo più semplice e veloce.

Formazione più rapida con meno risorse
I risultati dell’architettura nGPT sono chiari. Nei test condotti utilizzando il set di dati OpenWebText, nGPT di NVIDIA ha costantemente sovraperformato i modelli GPT tradizionali sia in termini di velocità che di efficienza. Con input di testo lunghi fino a 4.000 token, nGPT ha richiesto molti meno cicli di addestramento per ottenere una perdita di convalida simile, riducendo drasticamente il tempo necessario per addestrare questi modelli complessi.
Inoltre, la struttura ipersferica di nGPT offre risultati migliori incorporando la separabilità. Ciò significa che il modello può distinguere più facilmente tra diversi input, portando a una maggiore precisione durante i test AI standard. La migliore generalizzazione del modello gli consente inoltre di eseguire meglio i compiti oltre la sua formazione iniziale, accelerando la convergenza pur mantenendo elevati livelli di precisione.

Perché questo è importante per la formazione sull’intelligenza artificiale
Un vantaggio chiave di nGPT è la sua capacità di combinarli entrambi normalizzazione E rappresentazione apprendimento in un quadro unificato. Questo design semplifica l’architettura del modello, facilitandone la scalabilità e l’adattamento a sistemi ibridi più complessi. Ciò potrebbe potenzialmente portare allo sviluppo di sistemi di intelligenza artificiale ancora più potenti in futuro, poiché l’approccio di nGPT potrebbe essere integrato in altri tipi di modelli e architetture.
Credito immagine in primo piano: Kerem Gülen/Ideogramma