Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Installa è qui: il modello di parametro 3b di AMD affronta Llama e Gemma

byKerem Gülen
8 Marzo 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Amd ha svelato Installa, una famiglia di modelli in linguaggio completamente open source con 3 miliardi di parametri, addestrata da zero su GPU AMD Instinct ™ MI300X. I modelli di Installa superano i modelli aperti esistenti di dimensioni simili e competono efficacemente con i principali modelli di peso aperto, tra cui Llama-3.2-3b, Gemma-2-2b e Qwen-2.5-3b, comprese le loro versioni sintonizzate sulle istruzioni.

AMD svela Installa: modelli di lingua aperta a source che sovraperformano i rivali

Installa impiega un’architettura di trasformatore autoregressiva composta da 36 strati di decodificatore e 32 teste di attenzione, consentendole di elaborare lunghe sequenze fino a 4.096 token. Il modello utilizza un vocabolario di circa 50.000 token, gestito dal tokenizer Olmo, rendendolo abile nel generare e interpretare il testo in vari settori.

La procedura di formazione per Installa evidenzia la collaborazione tra le innovazioni hardware e software di AMD. Questo nuovo modello si basa sulle basi stabilite dai precedenti modelli di parametri da 1 miliardo di AMD, passando dall’allenamento su 64 GPU MI250 di istinto AMD con 1,3 trilioni di token all’utilizzo di 128 GPU MI300X di istinto con 4,15 trilioni di token per l’attuale modello di parametri a 3 moli.

Installa-is-here-AMD-3B-Parameter-Model-Takes-on-Lllama-and-Gemma
Immagine: AMD

Confrontando Installa con i modelli precedenti, AMD riporta che non solo supera i modelli esistenti completamente aperti, ma raggiunge anche le prestazioni competitive da modelli a peso aperto all’avanguardia, segnando una pietra miliare significativa nel campo dell’elaborazione del linguaggio naturale. Questa iniziativa si allinea con l’impegno di AMD nel rendere la tecnologia avanzata più accessibile e promuovere la collaborazione e l’innovazione all’interno della comunità dell’IA.


I prezzi AMD RX 9000 potrebbero farti ripensare a quell’acquisto di RTX 5090


Fasi del modello di Installa e dati di allenamento

Questa versione include diverse versioni dei modelli Installa, ciascuno dei quali rappresenta diverse fasi di allenamento:

ModelloPalcoscenicoDati di formazione (token)Descrizione
Installa-3B-Stage1Pre-allenamento (stadio 1)4.065 trilioniPre-allenamento del primo stadio per sviluppare competenza nel linguaggio naturale.
Installa-3BPre-allenamento (Fase 2)57.575 miliardiPre-allenamento del secondo stadio per migliorare le capacità di risoluzione dei problemi.
Installa-3B-sftSft8,902 miliardi (epoche x3)Fine-touning supervisionato (SFT) per consentire le funzionalità che seguono le istruzioni.
Installa-3B-instructDpo760 milioniAllineamento alle preferenze umane e al miglioramento delle capacità di chat con l’ottimizzazione delle preferenze dirette (DPO).

Nella pipeline di addestramento a più fasi, la prima fase di pre-allenamento ha utilizzato token 4.065 trilioni di set di dati diversi, stabilendo la comprensione del linguaggio fondamentale. La successiva formazione su altri 57,575 miliardi di token ha ulteriormente migliorato le prestazioni del modello su vari compiti e domini.

Durante la messa a punto supervisionato, Institu-3B-SFT è stato addestrato con 8,9 miliardi di token, migliorando le capacità di risposta interattiva. La fase finale, Installa-3B-Instruct, è stata sottoposta a formazione di allineamento con l’ottimizzazione delle preferenze dirette utilizzando 0,76 miliardi di token, garantendo che gli output del modello siano allineati con valori e preferenze umane.

AMD ha realizzato tutti gli artefatti associati ai modelli di Installa completamente aperti, tra cui pesi del modello, configurazioni di formazione, set di dati e codice, promuovendo la collaborazione e l’innovazione nella comunità dell’IA. Queste risorse sono accessibili tramite Abbracciare la faccia carte modello e Github repository.


Credito d’immagine in primo piano: Amd

Tags: AIAMDInstalla

Related Posts

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

13 Gennaio 2026
Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

13 Gennaio 2026
Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

13 Gennaio 2026
Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

13 Gennaio 2026
Dell risolve l'XPS: i tasti fisici ritornano nei nuovi modelli 14 e 16

Dell risolve l'XPS: i tasti fisici ritornano nei nuovi modelli 14 e 16

13 Gennaio 2026
Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

12 Gennaio 2026

Recent Posts

  • Dal 2008, Apple ha pagato agli sviluppatori 550 miliardi di dollari tramite App Store
  • Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori
  • Amazon: il 97% dei nostri dispositivi è pronto per Alexa+
  • Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri
  • La Paramount fa causa alla Warner Bros. per imporre la trasparenza sull'accordo con Netflix

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.