Openi ha appena integrato il suo generatore di immagini più avanzato in GPT-4O, rendendo la generazione di immagini una “capacità primaria” dei suoi modelli linguistici. Ciò consente la creazione di immagini precise e fotorealistiche utili per vari compiti, dai diagrammi alla comunicazione visiva.
Gli umani hanno sempre fatto affidamento su immagini visive per qualcosa di più della semplice decorazione: pensa che i dipinti delle caverne si evolvevano in infografiche moderne. Mentre i modelli generativi attuali eccellono nel creare immagini sbalorditive, spesso non riescono a produrre immagini pratiche. Loghi e diagrammi, ad esempio, richiedono una miscela di significato preciso e contesto condiviso, qualcosa che GPT-4O mira a fornire.
GPT-4O può rendere accuratamente il testo, seguire da vicino le istruzioni e sfruttare la sua base di conoscenza integrata, incluso la trasformazione di immagini caricate. Queste caratteristiche aiutano a rendere la creazione di immagini uno strumento più pratico, migliorando la comunicazione visiva con precisione.
La formazione ha comportato l’esposizione dei modelli a un mix di immagini e testo online, insegnando loro non solo come le immagini si relazionano al linguaggio, ma come si interconnevano. Il post-formazione intensivo migliora ulteriormente la fluidità visiva del modello, con conseguente generazione di immagini coerente e sensibile al contesto.
Le funzionalità di generazione di immagini GPT-4O includono:
- Rendering di testo: Integra simboli precisi con le immagini.
- Generazione multi-giro: Refines le immagini attraverso una conversazione continua.
- Apprendimento in contesto: Analisi e apprendono dalle immagini con caricamento dell’utente.
- Conoscenza del mondo: Collega la conoscenza tra testo e immagini.
- Fotorealismo e stile: Crea o trasforma le immagini in stili vari.
Nonostante questi progressi, il modello non è impeccabile. Openai riconosce limiti come problemi di coltivazione, allucinazioni e sfide nel rendering grafico e multilingue del testo, che prevedono tutti di affrontare il post-lancio.
La sicurezza rimane una priorità. Openi mira a bilanciare la libertà creativa con solidi standard di sicurezza, implementando misure come la provenienza C2PA e i meccanismi di ricerca interna per prevenire l’abuso.
La nuova funzionalità di generazione di immagini in GPT-4O sta trasformando su Plus, Pro, Team e Utenti gratuiti di CHATGPT. Sarà presto disponibile anche per gli utenti aziendali ed EDU. Gli sviluppatori possono aspettarsi l’accesso API nelle prossime settimane. Gli utenti possono creare immagini semplicemente descrivendo le loro esigenze in chat, specificando dettagli come proporzioni o colori.
A causa della natura dettagliata delle sue immagini, potrebbero impiegare fino a un minuto per rendere.