Installa è qui: il modello di parametro 3b di AMD affronta Llama e Gemma

Amd ha svelato Installa, una famiglia di modelli in linguaggio completamente open source con 3 miliardi di parametri, addestrata da zero su GPU AMD Instinct ™ MI300X. I modelli di Installa superano i modelli aperti esistenti di dimensioni simili e competono efficacemente con i principali modelli di peso aperto, tra cui Llama-3.2-3b, Gemma-2-2b e Qwen-2.5-3b, comprese le loro versioni sintonizzate sulle istruzioni.

AMD svela Installa: modelli di lingua aperta a source che sovraperformano i rivali

Installa impiega un’architettura di trasformatore autoregressiva composta da 36 strati di decodificatore e 32 teste di attenzione, consentendole di elaborare lunghe sequenze fino a 4.096 token. Il modello utilizza un vocabolario di circa 50.000 token, gestito dal tokenizer Olmo, rendendolo abile nel generare e interpretare il testo in vari settori.

La procedura di formazione per Installa evidenzia la collaborazione tra le innovazioni hardware e software di AMD. Questo nuovo modello si basa sulle basi stabilite dai precedenti modelli di parametri da 1 miliardo di AMD, passando dall’allenamento su 64 GPU MI250 di istinto AMD con 1,3 trilioni di token all’utilizzo di 128 GPU MI300X di istinto con 4,15 trilioni di token per l’attuale modello di parametri a 3 moli.

Installa-is-here-AMD-3B-Parameter-Model-Takes-on-Lllama-and-Gemma — Immagine: AMD

Confrontando Installa con i modelli precedenti, AMD riporta che non solo supera i modelli esistenti completamente aperti, ma raggiunge anche le prestazioni competitive da modelli a peso aperto all’avanguardia, segnando una pietra miliare significativa nel campo dell’elaborazione del linguaggio naturale. Questa iniziativa si allinea con l’impegno di AMD nel rendere la tecnologia avanzata più accessibile e promuovere la collaborazione e l’innovazione all’interno della comunità dell’IA.

I prezzi AMD RX 9000 potrebbero farti ripensare a quell’acquisto di RTX 5090

Fasi del modello di Installa e dati di allenamento

Questa versione include diverse versioni dei modelli Installa, ciascuno dei quali rappresenta diverse fasi di allenamento:

Modello	Palcoscenico	Dati di formazione (token)	Descrizione
Installa-3B-Stage1	Pre-allenamento (stadio 1)	4.065 trilioni	Pre-allenamento del primo stadio per sviluppare competenza nel linguaggio naturale.
Installa-3B	Pre-allenamento (Fase 2)	57.575 miliardi	Pre-allenamento del secondo stadio per migliorare le capacità di risoluzione dei problemi.
Installa-3B-sft	Sft	8,902 miliardi (epoche x3)	Fine-touning supervisionato (SFT) per consentire le funzionalità che seguono le istruzioni.
Installa-3B-instruct	Dpo	760 milioni	Allineamento alle preferenze umane e al miglioramento delle capacità di chat con l’ottimizzazione delle preferenze dirette (DPO).

Nella pipeline di addestramento a più fasi, la prima fase di pre-allenamento ha utilizzato token 4.065 trilioni di set di dati diversi, stabilendo la comprensione del linguaggio fondamentale. La successiva formazione su altri 57,575 miliardi di token ha ulteriormente migliorato le prestazioni del modello su vari compiti e domini.

Durante la messa a punto supervisionato, Institu-3B-SFT è stato addestrato con 8,9 miliardi di token, migliorando le capacità di risposta interattiva. La fase finale, Installa-3B-Instruct, è stata sottoposta a formazione di allineamento con l’ottimizzazione delle preferenze dirette utilizzando 0,76 miliardi di token, garantendo che gli output del modello siano allineati con valori e preferenze umane.

AMD ha realizzato tutti gli artefatti associati ai modelli di Installa completamente aperti, tra cui pesi del modello, configurazioni di formazione, set di dati e codice, promuovendo la collaborazione e l’innovazione nella comunità dell’IA. Queste risorse sono accessibili tramite Abbracciare la faccia carte modello e Github repository.

Credito d’immagine in primo piano: Amd

Tags: AI AMD Installa

Installa è qui: il modello di parametro 3b di AMD affronta Llama e Gemma

Related Posts

Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione

Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità

Trump costringe Apple a ripensare la sua strategia di iPhone India

L’IA di YouTube ora sa quando stai per comprare

Il CEO di Soundcloud ammette che i termini dell’IA non erano abbastanza chiari, emette un nuovo impegno

Pronto per un chatgpt che ti conosce veramente?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Installa è qui: il modello di parametro 3b di AMD affronta Llama e Gemma

AMD svela Installa: modelli di lingua aperta a source che sovraperformano i rivali

Fasi del modello di Installa e dati di allenamento

Related Posts

Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione

Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità

Trump costringe Apple a ripensare la sua strategia di iPhone India

L’IA di YouTube ora sa quando stai per comprare

Il CEO di Soundcloud ammette che i termini dell’IA non erano abbastanza chiari, emette un nuovo impegno

Pronto per un chatgpt che ti conosce veramente?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us