Bene, sono felice, Aperto Finalmente è uscito dalle dita per offrirci una generazione di sistema di generazione di immagini che contiene acqua. Quindi, naturalmente, siamo ancora lontani dalla qualità della “foto” di Midjourney o 1.1 Pro flusso ma per fare loghi o diagrammi, sembra fantastico! Soprattutto perché sa scrivere quasi senza errori. Troppo bello !!
Queste immagini Dall-E 3 digitavano con geroglifici come testo, è finalmente finita! YouPi! Infatti, Sam AltmanCEO di Openi, annunciato con grande fanfara L’integrazione nativa della generazione di immagini Direttamente in Chatgpt tramite il loro modello multimodale GPT-4O.
Traduzione per coloro che capiscono rapidamente quando dai loro molto tempo, ora puoi chiedere a Chatgpt di creare immagini direttamente nella conversazione, senza passare attraverso uno strumento esterno. Super pratico per iterare rapidamente su un’immagine dell’immagine.
Ciò che rende questo aggiornamento molto interessante è che GPT-4O sostituisce completamente Dall-E 3 come modello predefinito di generazione di immagini e, a differenza del suo predecessore, eccelle nella creazione di immagini contenenti il testo leggibile. Niente più abusi testuali!
Il modello richiede un po ‘più di tempo per generare, ma la qualità ne vale la pena & MLDR; Dal punto di vista tecnico, questa evoluzione è il frutto di un intero anno di lavoro con un centinaio di “formatori umani” che hanno etichettato i dati di addestramento, indicando in particolare gli errori nei testi e le deformazioni anatomiche (queste famose 8 dita che conosciamo troppo bene). Questa tecnica, chiamata Apprendimento del rinforzo dal feedback umano (RLHF), ha quindi permesso di perfezionare considerevolmente le prestazioni del modello.
Tra le caratteristiche che hanno attirato la mia attenzione, c’è ad esempio la possibilità di creare immagini con sfondi trasparenti (perfetti per i loghi) e MLDR;
L’uso di codici esadecimali per colori precisi e MLDR;
E soprattutto la capacità di mantenere la coerenza visiva su diverse iterazioni. In questo modo se progetti un personaggio per un videogioco o un fumetto, ora puoi perfezionare gradualmente il suo aspetto senza perdere le caratteristiche di base.
Il modello è anche in grado di gestire istruzioni complesse con 10-20 oggetti diversi nella stessa immagine. Vale a dire che puoi chiedergli di disegnare “Un unicorno cyberpunk che cavalca una pizza volante su una città futuristica con robot che ballano la Macarena e un gatto DJ con giradischiE andrà abbastanza bene. Ho testato. È inquietante.
Un’altra novità che avrà il più prudente tra di voi, Openai ha ammorbidito le sue restrizioni sui contenuti. In effetti, Sam Altman ha affermato che GPT-4O sarà in grado di creare contenuti “offensivi” in misura ragionevole “, evidenziando così la” libertà intellettuale “degli utenti. Siamo ancora lontani dalla permissività di Grok di Elon Musk, ma è un passo in questa direzione.
State tranquilli (o no), le guardie rimangono in atto per contenuti davvero problematici come pornografia infantile o profondi sessuali. Inoltre, la generazione di questo poster è stata interrotta e MLDR; Snif, non sapremo mai cosa rappresentasse.
Sul lato dell’accessibilità, è qui che diventa davvero interessante! La funzione è disponibile per tutti, anche con un account gratuito! Inoltre, gli utenti di professionisti e team lo hanno immediatamente, così come gli utenti gratuiti. Solo gli account aziendali e educativi dovranno aspettare un po ‘, mentre gli sviluppatori che vorrebbero integrarlo tramite l’API dovranno aspettare qualche settimana. Questa strategia di Openi è abbastanza intelligente poiché democratizzano l’accesso ai loro migliori strumenti per compensare il loro ritardo nella competizione.
Ora, se hai ancora la nostalgia per Dall-E 3, puoi sempre accedervi tramite un GPT dedicato ma francamente, dopo aver testato GPT-4o, non vedo perché ti piacerebbe tornare indietro.
Per provarlo, nulla potrebbe essere più semplice, connettersi a Chatgpt e chiedergli di creare un’immagine. Ecco alcuni suggerimenti che ho testato con buoni risultati:
Genera un logo per un blog tecnologico chiamato “Korben” con un background trasparente. Il logo deve essere minimalista con un bambino con occhiali da sole contenenti il codice matrice all’interno.
Ha creato un’infografica che spiega il funzionamento dell’RLHF nell’IA, con testo leggibile e un design moderno su un codice di sfondo blu scuro Hexa #556D8D
In breve, penso che lo userò nel mio lavoro perché per fare un diagramma o una piccola immagine per illustrare un articolo sul software, è fantastico!
Quindi sì, lo so, GPT-4O non è perfetto. Ho notato che lotta ancora con le proporzioni e alcuni dettagli anatomici complessi. Prende anche più tempo di Dall-E 3 per generare le sue immagini. Ma per uno strumento integrato direttamente in Chatgpt, è un grande salto in avanti. Openi finalmente raggiunge Google Gemini che ha già offerto la generazione di immagini dalla metà del 2024.
In questo modo, non c’è bisogno di destreggiarsi tra Chatgpt e Midjourney per i tuoi progetti creativi! Finalmente & mldr; A meno che tu non stia prendendo di mira una qualità fotografica davvero realistica, nel qual caso Midjourney mantiene ancora un passo avanti. Ma per tutto il resto, GPT-4O sembra molto promettente. Arrivederci mani deformate e testi illeggibili e ciao nelle ore trascorse a generare immagini di gatti astronauti che mangiano pizze su Marte. Non ringraziarmi per la tua futura perdita di produttività.
Da scoprire qui: https://chat.openai.com
Source link
Subscribe to our email newsletter to get the latest posts delivered right to your email.
Comments