Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Installa è qui: il modello di parametro 3b di AMD affronta Llama e Gemma

byKerem Gülen
8 Marzo 2025
in Artificial Intelligence, News
Home Artificial Intelligence

Amd ha svelato Installa, una famiglia di modelli in linguaggio completamente open source con 3 miliardi di parametri, addestrata da zero su GPU AMD Instinct ™ MI300X. I modelli di Installa superano i modelli aperti esistenti di dimensioni simili e competono efficacemente con i principali modelli di peso aperto, tra cui Llama-3.2-3b, Gemma-2-2b e Qwen-2.5-3b, comprese le loro versioni sintonizzate sulle istruzioni.

AMD svela Installa: modelli di lingua aperta a source che sovraperformano i rivali

Installa impiega un’architettura di trasformatore autoregressiva composta da 36 strati di decodificatore e 32 teste di attenzione, consentendole di elaborare lunghe sequenze fino a 4.096 token. Il modello utilizza un vocabolario di circa 50.000 token, gestito dal tokenizer Olmo, rendendolo abile nel generare e interpretare il testo in vari settori.

La procedura di formazione per Installa evidenzia la collaborazione tra le innovazioni hardware e software di AMD. Questo nuovo modello si basa sulle basi stabilite dai precedenti modelli di parametri da 1 miliardo di AMD, passando dall’allenamento su 64 GPU MI250 di istinto AMD con 1,3 trilioni di token all’utilizzo di 128 GPU MI300X di istinto con 4,15 trilioni di token per l’attuale modello di parametri a 3 moli.

Installa-is-here-AMD-3B-Parameter-Model-Takes-on-Lllama-and-Gemma
Immagine: AMD

Confrontando Installa con i modelli precedenti, AMD riporta che non solo supera i modelli esistenti completamente aperti, ma raggiunge anche le prestazioni competitive da modelli a peso aperto all’avanguardia, segnando una pietra miliare significativa nel campo dell’elaborazione del linguaggio naturale. Questa iniziativa si allinea con l’impegno di AMD nel rendere la tecnologia avanzata più accessibile e promuovere la collaborazione e l’innovazione all’interno della comunità dell’IA.


I prezzi AMD RX 9000 potrebbero farti ripensare a quell’acquisto di RTX 5090


Fasi del modello di Installa e dati di allenamento

Questa versione include diverse versioni dei modelli Installa, ciascuno dei quali rappresenta diverse fasi di allenamento:

Modello Palcoscenico Dati di formazione (token) Descrizione
Installa-3B-Stage1 Pre-allenamento (stadio 1) 4.065 trilioni Pre-allenamento del primo stadio per sviluppare competenza nel linguaggio naturale.
Installa-3B Pre-allenamento (Fase 2) 57.575 miliardi Pre-allenamento del secondo stadio per migliorare le capacità di risoluzione dei problemi.
Installa-3B-sft Sft 8,902 miliardi (epoche x3) Fine-touning supervisionato (SFT) per consentire le funzionalità che seguono le istruzioni.
Installa-3B-instruct Dpo 760 milioni Allineamento alle preferenze umane e al miglioramento delle capacità di chat con l’ottimizzazione delle preferenze dirette (DPO).

Nella pipeline di addestramento a più fasi, la prima fase di pre-allenamento ha utilizzato token 4.065 trilioni di set di dati diversi, stabilendo la comprensione del linguaggio fondamentale. La successiva formazione su altri 57,575 miliardi di token ha ulteriormente migliorato le prestazioni del modello su vari compiti e domini.

Durante la messa a punto supervisionato, Institu-3B-SFT è stato addestrato con 8,9 miliardi di token, migliorando le capacità di risposta interattiva. La fase finale, Installa-3B-Instruct, è stata sottoposta a formazione di allineamento con l’ottimizzazione delle preferenze dirette utilizzando 0,76 miliardi di token, garantendo che gli output del modello siano allineati con valori e preferenze umane.

AMD ha realizzato tutti gli artefatti associati ai modelli di Installa completamente aperti, tra cui pesi del modello, configurazioni di formazione, set di dati e codice, promuovendo la collaborazione e l’innovazione nella comunità dell’IA. Queste risorse sono accessibili tramite Abbracciare la faccia carte modello e Github repository.


Credito d’immagine in primo piano: Amd

Tags: AIAMDInstalla

Related Posts

Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione

Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione

15 Maggio 2025
Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità

Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità

15 Maggio 2025
Trump costringe Apple a ripensare la sua strategia di iPhone India

Trump costringe Apple a ripensare la sua strategia di iPhone India

15 Maggio 2025
L’IA di YouTube ora sa quando stai per comprare

L’IA di YouTube ora sa quando stai per comprare

15 Maggio 2025
Il CEO di Soundcloud ammette che i termini dell’IA non erano abbastanza chiari, emette un nuovo impegno

Il CEO di Soundcloud ammette che i termini dell’IA non erano abbastanza chiari, emette un nuovo impegno

15 Maggio 2025
Pronto per un chatgpt che ti conosce veramente?

Pronto per un chatgpt che ti conosce veramente?

14 Maggio 2025

Recent Posts

  • L’impatto dei tessuti intelligenti sulle prestazioni di abbigliamento tattico
  • Databricks scommette grandi su Postgres senza server con la sua acquisizione di neon da $ 1 miliardo
  • Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione
  • Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità
  • Trump costringe Apple a ripensare la sua strategia di iPhone India

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.