Il mio collega Bünyamin Furkan Demirkaya ha ricevuto un’e-mail da Stability AI che introduce Stable Diffusion 3.5 Medium, un modello aperto gratuito per uso commerciale e non commerciale. Questo modello, con 2,5 miliardi di parametri, è progettato per funzionare in modo efficiente su hardware consumer, fornendo un accesso più ampio alla generazione avanzata di immagini AI. Esploriamo cosa offre questo nuovo modello e la sua compatibilità con varie GPU.
Progettato per l’hardware di consumo
Stable Diffusion 3.5 Medium è stato creato pensando all’accessibilità. A differenza di molti modelli avanzati che richiedono hardware specializzato e costoso, questo modello può funzionare sulla maggior parte delle GPU consumer senza significativi compromessi in termini di prestazioni. Secondo l’e-mail di Stability AI, “Questo modello richiede solo 9,9 GB di VRAM (esclusi i codificatori di testo) per sbloccare le sue massime prestazioni”, rendendolo una delle opzioni più accessibili per hobbisti, creatori e piccole startup che non dispongono del budget per farlo. GPU di fascia alta.
La tabella di compatibilità hardware condivisa da Stability AI illustra chiaramente questo punto. Ad esempio, GPU come NVIDIA RTX 3080 e versioni successive possono eseguire Stable Diffusion 3.5 Medium senza compromessi in termini di prestazioni. Anche le GPU più convenienti, come la NVIDIA RTX 4060 o RTX 3060, possono gestire questo modello, anche se con alcune ottimizzazioni come la quantizzazione o l’offload sequenziale.
Una guida completa al Flux NF4 in diffusione stabile
Compatibilità hardware
Il grafico classifica diverse GPU in base alla capacità VRAM e fornisce informazioni su quali modelli sono supportati. Ecco una ripartizione dettagliata:
- VRAM da 8 GB (NVIDIA GeForce RTX 4060): Modelli come Stable Diffusion 3.5 Medium possono essere eseguiti con alcuni compromessi in termini di prestazioni, indicati da un simbolo arancione nel grafico. Sono necessarie ottimizzazioni come la quantizzazione per gestire in modo efficace la VRAM limitata.
- 10 GB di VRAM (NVIDIA GeForce RTX 3080): Piena compatibilità senza compromessi, rappresentata da un segno di spunta verde. Ciò significa che il modello funziona senza intoppi, utilizzando la VRAM disponibile per generare immagini di alta qualità in modo efficiente.
- 12-16 GB VRAM (NVIDIA GeForce RTX 4070, 4060 Ti, 4080, ecc.): Le GPU con più VRAM, come NVIDIA RTX 4070 e AMD Radeon RX 7700 XT, non hanno problemi con Stable Diffusion 3.5 Medium e modelli simili. Queste GPU sono abbastanza potenti da far funzionare il modello “out of the box” senza alcuna modifica.
- 20 GB+ VRAM (AMD Radeon RX 7900 XT, NVIDIA GeForce RTX 3090): I modelli più grandi, inclusi FLUX.1 e Playground v2.5, possono essere eseguiti in modo efficiente su queste GPU ad alta capacità. Questa categoria è generalmente rivolta a utenti esperti o professionisti che cercano maggiore versatilità nell’utilizzo del modello.
- 32 GB o superiore (NVIDIA H100): Queste GPU di fascia alta possono eseguire facilmente qualsiasi modello base a immagine aperta, consentendo anche ai modelli più grandi di funzionare senza limitazioni.

Funzionalità multi-risoluzione avanzate
Stability AI descrive Stable Diffusion 3.5 Medium come “in grado di fornire la migliore generazione di immagini della categoria per le sue dimensioni”. Le funzionalità multi-risoluzione avanzate del modello lo distinguono dagli altri modelli di medie dimensioni. Per i creatori, questo significa immagini più chiare e un elevato livello di dettaglio, senza la necessità di una potente workstation.
La tabella sull’aderenza rapida e sulla qualità estetica mette a confronto Stable Diffusion 3.5 Medium con diversi altri modelli, fornendo una prospettiva più ampia. In particolare, i punteggi Elo per la pronta aderenza e la qualità estetica mostrano che Stable Diffusion 3.5 Medium funziona alla pari o meglio della maggior parte dei modelli di dimensioni simili.
Confronto delle prestazioni
La tabella valuta più modelli aperti in base alla pronta aderenza e alla qualità estetica, utilizzando un sistema di punteggio Elo. Si possono trarre i seguenti spunti:
- Diffusione stabile 3.5 Grande (8.1B): Diffusione stabile 3.5 Grandi ranghi in alto per una pronta adesione, il che significa che il modello segue esattamente l’input dell’utente. Questo è fondamentale per gli utenti che mirano a un’elevata precisione durante la generazione di immagini dai prompt.
- FLUSSO.1 [dev] (12B): Il modello con il punteggio di qualità estetica più alto. I suoi punteggi superiori riflettono la sua capacità di produrre immagini visivamente accattivanti che si allineano bene con le richieste dell’utente. Tuttavia, richiede molte più risorse hardware rispetto ai modelli di medie dimensioni come Stable Diffusion 3.5 Medium.
- Diffusione stabile 3,5 media (2,5B): Essendo un modello efficiente con un forte equilibrio tra pronta aderenza e qualità dell’immagine, offre risultati eccellenti senza le pesanti richieste di risorse dei modelli più grandi. Ciò lo rende ideale per gli utenti che dispongono di hardware limitato ma desiderano accedere a funzionalità avanzate di generazione di immagini.
- Parco giochi v2.5 (3.5B) e AuraFlow v0.2 (6.8B): Questi modelli, pur fornendo prestazioni decenti, non sono all’altezza di Stable Diffusion 3.5 Medium in termini di aderenza rapida e qualità bilanciate. Ciò li rende meno adatti se la precisione e la qualità estetica sono preoccupazioni primarie.

Con 2,5 miliardi di parametri, Stable Diffusion 3.5 Medium occupa una posizione unica nel panorama dei modelli AI. La combinazione di prestazioni elevate, requisiti hardware inferiori e funzionalità multi-risoluzione lo rende una scelta interessante per un’ampia gamma di utenti. Stability AI mira ad abbassare la barriera d’ingresso per la creatività basata sull’intelligenza artificiale, rivolgendosi a tutti, dalle startup ai creatori affermati che potrebbero non avere l’infrastruttura per implementare modelli di grandi dimensioni e ad alta intensità di risorse.
La dichiarazione diretta dell’azienda afferma: “Che si tratti di una startup o di un creatore, l’accesso a questa tecnologia non dovrebbe essere limitato da limitazioni hardware”. Ciò riflette l’enfasi di Stability AI sulla democratizzazione degli strumenti di intelligenza artificiale affrontando le sfide hardware che tradizionalmente hanno un’accessibilità limitata.
Cosa significa questo per creatori e startup
Uno dei punti chiave su cui si concentra Stability AI è garantire che i suoi strumenti siano disponibili al pubblico più vasto possibile. L’enfasi sull’hardware di livello consumer riflette una strategia per attingere a una base di utenti più ampia. Rendendo Stable Diffusion 3.5 Medium in grado di funzionare su GPU convenienti, stanno colmando un divario significativo nel mercato, colmando il divario tra utenti esperti e utenti entusiasti.
Uno sguardo alla tabella di compatibilità hardware mostra l’attenzione intenzionale alle schede grafiche consumer più popolari. La NVIDIA RTX 3060, che è una GPU abbastanza comune tra i creatori, è compatibile, anche se con alcuni compromessi. Questo tipo di versatilità apre le porte a utenti che in precedenza potrebbero non essere stati in grado di accedere agli strumenti di intelligenza artificiale a causa di vincoli hardware.
Le implicazioni del lancio di questo modello sono considerevoli. Per i piccoli creatori e le startup, la capacità di eseguire un potente modello di generazione di immagini senza elevati costi hardware iniziali livella il campo di gioco. I concorrenti che sono vincolati da risorse limitate ora hanno un punto di ingresso fattibile nel lavoro creativo assistito dall’intelligenza artificiale.
Il confronto con gli altri modelli presenti in tabella evidenzia come questa release porti un valore significativo. A differenza di modelli come AuraFlow o PixArt-Σ, che richiedono hardware esteso o non riescono a garantire la qualità dell’immagine, Stable Diffusion 3.5 Medium mira a un equilibrio tra prestazioni e accessibilità.
Qualità dell’immagine, pronta aderenza e praticità d’uso
Le prestazioni di Stable Diffusion 3.5 Medium si estendono anche agli aspetti qualitativi della generazione delle immagini. Un buon equilibrio tra pronta aderenza e qualità estetica è cruciale negli scenari pratici, soprattutto per gli utenti che hanno bisogno di creare opere d’arte o generare contenuti sulla base di input specifici e dettagliati.
Il grafico del punteggio Elo condiviso da Stability AI mostra che il modello medio può competere bene con controparti più grandi richiedendo meno risorse. Ad esempio, eguaglia quasi l’SD 3.5 Large Turbo (8.1B) sia in termini di aderenza che di qualità estetica, ma può essere utilizzato su GPU meno potenti.
Come provare Stable Diffusion 3.5 Medium
Per gli utenti interessati a testare questo modello, Stability AI offre un percorso semplice. I pesi sono disponibili per il download su Volto che abbracciae il codice di inferenza può essere trovato su GitHub. Questo accesso diretto garantisce che sviluppatori e creatori possano iniziare a utilizzare Stable Diffusion 3.5 Medium con facilità, integrandolo nei flussi di lavoro esistenti o creando nuovi progetti da zero.
Oltre al modello principale, tutti i dettagli sono disponibili anche sul blog di Stability AI, fornendo approfondimenti sulla tecnologia sottostante e ulteriori indicazioni su come sfruttare al meglio le sue funzionalità.
Credito immagine in primo piano: Kerem Gülen/Ideogramma