Non sono un grande utente di AI Studio de Google, e anche meno dei loro modelli aperti, anche se Gemma 3 era abbastanza buono, ho scoperto. L’ecosistema IA di Google raramente mi ha fatto vibrare più di questo finora.
Ma non ho potuto ignorare Gemini 2.5.
Per quello ? Bene perché annunciano qualcosa che si distingue un po ‘: Un modello che sicuramente richiede il suo tempo ma che pensa davvero bene prima di rispondere.
L’idea dietro è come lo chiamano “Ragionamento AI“Fondamentalmente, invece di disegnare una risposta alla velocità del fulmine, anche se ciò significa piantare se stesso, Gemini 2.5 prende una pausa virtuale per analizzare in modo più approfondito, controlla le tue informazioni, in breve, ragionamento …
Utilizza più tempo e calcolo, quindi è potenzialmente più lento e più costoso, ma Google promette risultati più affidabili, in particolare per cose complesse come matematica o codice. È un approccio interessante che cambia dalla solita corsa alla latenza minima.
Con questo annuncio, Siamo quindi su un modello che segue le orme dei modelli O1 e O3 di OpenAI ma anche DeepSeek R1 e antropico con l’ultima versione di Claude. È quindi chiaramente una tendenza fondamentale che potrebbe essere la base dei famosi “agenti IA” autonomi di domani.
Per il momento, Questo modello di Google è sperimentale e può elaborare diversi tipi di informazioni … testo, immagini, ecc. Google non ha dettagliato tutti i “ecc.”, Ma siamo in classico multimodale. Dove diventa forte è la dimensione della finestra di contesto: 1 milione di token Al lancio (circa 750.000 parole, più che il Signore degli Anelli è completo!), E stanno già parlando di salire 2 milioni di token Presto. Abbastanza per dargli interi basi di codice o chilometri di documentazione da analizzare. Google afferma inoltre che è particolarmente bravo a creare app Web visive e per la “codifica agente”.
Quindi, è verificato benchmark ? Bene Mountain View arrivano alcune figure. Su AIUTO Polyglot (Code Edition), sta andando bene (68,6%), battendo i concorrenti menzionati. D’altra parte, su SWE-Bench Verified (Sviluppo del software), è più miscelato: con il 63,8%, supera O3-Mini e DeepSeek R1, ma rimane dietro il Sonetto Claude 3.7antropico (70,3%).
Ad esempio, diffidare sempre degli annunci trionfanti. In un altro test multimodale (ultimo esame dell’umanità), ottiene il 18,8%, che sarebbe “migliore della maggior parte” di altri grandi modelli. In breve, è promettente su determinati punti, ma non (ancora?) Una rivoluzione ovunque.
Personalmente, Non vedo l’ora di testare anche questo con il codice. Questo è spesso dove vediamo davvero ciò che l’IA ha nella pancia, soprattutto visto mentre insistono sulle sue capacità di “codifica agente”. Vedendo come riesce ad analizzare, correggere o persino scrivere un codice complesso, sarà interessante.
Qui, da parte mia continuerò i test perché è fresco. Non ho potuto fare a meno di scrivere questo articolo facendo accompagnare questa nuova versione. L’ho trovato abbastanza buono anche se preferisco ancora Claude Sonnet 3.7 che cattura meglio il mio delirio.
Per testarlo da solo, È tramite la piattaforma di sviluppatori di Google, AI Studioo per gli abbonati Gemelli avanzati (L’offerta a pagamento a $ 20/mese). Fai attenzione, come detto sopra, il “ragionamento” è più costoso nelle risorse e Google non ha ancora annunciato il prezzo delAPI. Potrebbe pungere un po ‘per coloro che vorrebbero integrarlo nei loro progetti.
Per vedere come si evolve …
Source link
Subscribe to our email newsletter to get the latest posts delivered right to your email.
Comments