Ho testato la nuova generazione di immagini con GPT-4o ed è un altro mondo

Bene, sono felice, Aperto Finalmente è uscito dalle dita per offrirci una generazione di sistema di generazione di immagini che contiene acqua. Quindi, naturalmente, siamo ancora lontani dalla qualità della “foto” di Midjourney o 1.1 Pro flusso ma per fare loghi o diagrammi, sembra fantastico! Soprattutto perché sa scrivere quasi senza errori. Troppo bello !!

Queste immagini Dall-E 3 digitavano con geroglifici come testo, è finalmente finita! YouPi! Infatti, Sam AltmanCEO di Openi, annunciato con grande fanfara L’integrazione nativa della generazione di immagini Direttamente in Chatgpt tramite il loro modello multimodale GPT-4O.

Traduzione per coloro che capiscono rapidamente quando dai loro molto tempo, ora puoi chiedere a Chatgpt di creare immagini direttamente nella conversazione, senza passare attraverso uno strumento esterno. Super pratico per iterare rapidamente su un’immagine dell’immagine.

Ciò che rende questo aggiornamento molto interessante è che GPT-4O sostituisce completamente Dall-E 3 come modello predefinito di generazione di immagini e, a differenza del suo predecessore, eccelle nella creazione di immagini contenenti il testo leggibile. Niente più abusi testuali!

Il modello richiede un po ‘più di tempo per generare, ma la qualità ne vale la pena & MLDR; Dal punto di vista tecnico, questa evoluzione è il frutto di un intero anno di lavoro con un centinaio di “formatori umani” che hanno etichettato i dati di addestramento, indicando in particolare gli errori nei testi e le deformazioni anatomiche (queste famose 8 dita che conosciamo troppo bene). Questa tecnica, chiamata Apprendimento del rinforzo dal feedback umano (RLHF), ha quindi permesso di perfezionare considerevolmente le prestazioni del modello.

Tra le caratteristiche che hanno attirato la mia attenzione, c’è ad esempio la possibilità di creare immagini con sfondi trasparenti (perfetti per i loghi) e MLDR;

SCR 20250325 SSNV

L’uso di codici esadecimali per colori precisi e MLDR;

SCR 20250325 Suzu

E soprattutto la capacità di mantenere la coerenza visiva su diverse iterazioni. In questo modo se progetti un personaggio per un videogioco o un fumetto, ora puoi perfezionare gradualmente il suo aspetto senza perdere le caratteristiche di base.

SCR 20250325 SYBR

SCR 20250325 Symv

Il modello è anche in grado di gestire istruzioni complesse con 10-20 oggetti diversi nella stessa immagine. Vale a dire che puoi chiedergli di disegnare “Un unicorno cyberpunk che cavalca una pizza volante su una città futuristica con robot che ballano la Macarena e un gatto DJ con giradischiE andrà abbastanza bene. Ho testato. È inquietante.

SCR 20250325

Un’altra novità che avrà il più prudente tra di voi, Openai ha ammorbidito le sue restrizioni sui contenuti. In effetti, Sam Altman ha affermato che GPT-4O sarà in grado di creare contenuti “offensivi” in misura ragionevole “, evidenziando così la” libertà intellettuale “degli utenti. Siamo ancora lontani dalla permissività di Grok di Elon Musk, ma è un passo in questa direzione.

SCR 20250325 TDQP

State tranquilli (o no), le guardie rimangono in atto per contenuti davvero problematici come pornografia infantile o profondi sessuali. Inoltre, la generazione di questo poster è stata interrotta e MLDR; Snif, non sapremo mai cosa rappresentasse.

Sul lato dell’accessibilità, è qui che diventa davvero interessante! La funzione è disponibile per tutti, anche con un account gratuito! Inoltre, gli utenti di professionisti e team lo hanno immediatamente, così come gli utenti gratuiti. Solo gli account aziendali e educativi dovranno aspettare un po ‘, mentre gli sviluppatori che vorrebbero integrarlo tramite l’API dovranno aspettare qualche settimana. Questa strategia di Openi è abbastanza intelligente poiché democratizzano l’accesso ai loro migliori strumenti per compensare il loro ritardo nella competizione.

Ora, se hai ancora la nostalgia per Dall-E 3, puoi sempre accedervi tramite un GPT dedicato ma francamente, dopo aver testato GPT-4o, non vedo perché ti piacerebbe tornare indietro.

Per provarlo, nulla potrebbe essere più semplice, connettersi a Chatgpt e chiedergli di creare un’immagine. Ecco alcuni suggerimenti che ho testato con buoni risultati:

Genera un logo per un blog tecnologico chiamato “Korben” con un background trasparente. Il logo deve essere minimalista con un bambino con occhiali da sole contenenti il codice matrice all’interno.

SCR 20250325 TGZS

Ha creato un’infografica che spiega il funzionamento dell’RLHF nell’IA, con testo leggibile e un design moderno su un codice di sfondo blu scuro Hexa #556D8D

SCR 20250325 TMER

In breve, penso che lo userò nel mio lavoro perché per fare un diagramma o una piccola immagine per illustrare un articolo sul software, è fantastico!

Quindi sì, lo so, GPT-4O non è perfetto. Ho notato che lotta ancora con le proporzioni e alcuni dettagli anatomici complessi. Prende anche più tempo di Dall-E 3 per generare le sue immagini. Ma per uno strumento integrato direttamente in Chatgpt, è un grande salto in avanti. Openi finalmente raggiunge Google Gemini che ha già offerto la generazione di immagini dalla metà del 2024.

In questo modo, non c’è bisogno di destreggiarsi tra Chatgpt e Midjourney per i tuoi progetti creativi! Finalmente & mldr; A meno che tu non stia prendendo di mira una qualità fotografica davvero realistica, nel qual caso Midjourney mantiene ancora un passo avanti. Ma per tutto il resto, GPT-4O sembra molto promettente. Arrivederci mani deformate e testi illeggibili e ciao nelle ore trascorse a generare immagini di gatti astronauti che mangiano pizze su Marte. Non ringraziarmi per la tua futura perdita di produttività.

Da scoprire qui: https://chat.openai.com

Fonte

Source link

Categorized in:

Tecnologia

Ho testato la nuova generazione di immagini con GPT-4o ed è un altro mondo | Intelligenza artificiale

Comments

Lascia un commento Annulla risposta

Previous Article

Gemini 2.5 – Google AI che impiega il suo tempo prima di aprirlo | Intelligenza artificiale

Next Article

Verso una standardizzazione degli accenti grazie / A causa dell’IA? | Intelligenza artificiale

CliPippy, The Renaissance – Il leggendario trombone ritorna in modalità IA | Open source

Bleachbit 5.0 – È tempo di fare una grande pulizia di primavera sul tuo PC | Software utile

Come sincronizzare perfettamente audio e video su macOS | Software utile

Press ESC to close

Or check our Popular Categories...

Like what you read?

Subscribe to our Newsletter

Comments

Lascia un commento Annulla risposta

Related Articles

Previous Article

Next Article