Come fai a avere i nostri AIS preferiti che ci hanno mentito fin dall’inizio ?? Antropico si è appena diviso in due il cranio del suo LLM per vedere cosa c’era dentro e i risultati sono affascinanti quanto si preoccupano. La compagnia all’origine dell’assistente Claude pubblicato uno studio Chi potrebbe benissimo sconvolgere la nostra comprensione di ciò che sta realmente accadendo nel “cervello” dell’IA.
Se come me, usi regolarmente Chatgpt, Claude o altri principali modelli di lingua, potresti aver già chiesto: “Ma come funziona questo Messire Devilierie?“Vediamo le loro straordinarie risposte da Cyber Intello, ma finora nessuno, nemmeno i loro creatori, ha davvero capito la loro operazione interna. Incredibile giusto?
Questa opacità è anche all’origine di tutti i tipi di problemi. Perché questi modelli allucinano? Come si trovano vulnerabili a “jailbreaks”? E quando Claude o Chatgpt ti dicono “Ecco il mio ragionamento passo dopo passo“, È davvero così che ci hanno pensato (spoiler: per niente, questi piccoli bugiardi!)
Per analizzare questo, Antropico ha sviluppato quello che chiamano un “microscopio per IA”, un metodo chiamato Transcoder a strato (CLT) Il che consente di visualizzare i “circuiti neurali” che si attivano quando l’IA riflette. È come una scansione del cervello per l’IA, che mostra quali parti si illuminano quando pensa a “cane”, “matematica” o “poesia”.
E ciò che i ricercatori hanno scoperto è correttamente sbloccante (senza un cattivo gioco di parole). Prima sorpresa, Claude non pensa solo a una parola dopo parola come potresti pensare. Quando gli viene chiesto di scrivere una poesia con le rime, pianifica in anticipo! I ricercatori hanno osservato che Claude prima pensa alle parole che ridono insieme e che sono rilevanti per il tema, quindi costruisce intere frasi per raggiungere queste parole. Un po ‘come un rapper che prepara le sue battute prima di costruire i suoi versi.
Ad esempio, per completare “ha visto una carota e ha dovuto afferrarla” Claude ha prima attivato il concetto di “coniglio” (perché fa rima con “afferrala” ed è tematicamente coerente), quindi ha costruito la frase “la sua fame era come un coniglio affamato”. E quando i ricercatori hanno rimosso artificialmente il concetto di “coniglio” del cervello di Claude, ha automaticamente ruotato verso un’altra rima (“abitudine”).
Un’altra grande scoperta, Claude ha un “Lingua del pensiero” universale che trascende le lingue. Quando gli parli in francese, cinese o inglese, gli stessi circuiti concettuali sono impegnati prima di essere tradotto nella lingua appropriata. È come se Claude avesse una lingua interna neutrale, un po ‘come la lingua dei puffi ma in molto più sofisticato. Maggiore è il modello, più questi circuiti condivisi tra le lingue sono numerosi.
E la matematica? È pazzesco ma Claude non è stato progettato come calcolatore, tuttavia fa correttamente aggiunte e moltiplicazioni. I ricercatori hanno scoperto che in realtà ne usava diversi Percorsi di calcolo paralleliuno per fare un’approssimazione grossolana del risultato e l’altro per calcolare con precisione l’ultima cifra.
Questi percorsi interagiscono quindi tra loro per produrre la risposta finale. La cosa più divertente è che se chiedi a Claude come ha calcolato 36+59, ti parlerà del metodo standard con “I Retend 1” & Mldr; Mentre il suo cervello artificiale fa qualcosa di completamente diverso.
E questo ti riguarda direttamente perché quando chatti con Claude facendogli una domanda complessa, progetta una strategia molto più elaborata di quello che ti dice. Môssieur preferisce mantenere segrete le sue piccole ricette personali.
La parte più affascinante (o inquietante, a seconda del punto di vista) riguarda allucinazioni e bugie. I ricercatori hanno scoperto che Claude ha anche un circuito predefinito che dice “Non lo so” E che viene automaticamente attivato per tutte le domande. Ma quando Claude riconosce un argomento che conosce bene (come Michael Jordan), un circuito della concorrenza attiva e inibisce questo rifiuto di default.
Il problema è che a volte Claude riconosce un nome ma non sa più nulla di quella persona. Il suo circuito di “entità conosciuta” può quindi essere ancora attivato per errore, eliminare il circuito “Non lo so” e costringerlo a inventare una risposta plausibile ma falsa. È come quando facessi il panico a un esame e scrivi qualcosa piuttosto che lasciare la pagina vuota, o come me quando mia madre mi ha chiesto dove ero il giorno prima.
Peggio ancora, i ricercatori hanno dimostrato che Claude può fare un ragionamento che sembra logico ma che è completamente violato per raggiungere la conclusione che pensa che tu stia aspettando. Ad esempio, hanno dato a Claude un difficile problema matematico con un indice errato e ha osservato che Claude costruisce un “ragionamento” che porta a questa risposta errata come se il modello dicesse “l’insegnante vuole questa risposta, quindi trovare un percorso che conduce, non importa se è corretto”.
Per quanto riguarda i famosi “jailbreaks” (queste tecniche che consentono di aggirare i limiti di sicurezza dell’IA), Antropic ha scoperto che operano in parte a causa di una tensione tra Coerenza grammaticale E meccanismi di sicurezza. Una volta che Claude inizia una frase, diversi circuiti lo spingono a mantenere la coerenza grammaticale e semantica, anche se rileva che dovrebbe rifiutare.
È solo dopo aver terminato una frase grammaticamente coerente che può ruotare verso un rifiuto. Un po ‘come me quando inizio a raccontare una battuta molto dubbia e che mi rendo conto nel mezzo della storia che non è una buona idea ma che lo finisco comunque, anche se ciò significa andare all’incidente, perché & mldr; Bene, devi finire.
In breve, tutte queste affascinanti scoperte potrebbero davvero rivoluzionare il nostro modo di sviluppare e usare l’IA. Sarebbe possibile rilevare quando un’intelligenza artificiale inventa un falso ragionamento o comprendere esattamente perché allucina in determinate situazioni o addirittura sviluppa garanzie più efficaci contro i jailbreak.
È un grande anticipo soprattutto per tutte le scatole che esitano a passare all’IA proprio a causa di questi problemi di affidabilità. Josh Batson, ricercatore di Antropico, dice anche: “Penso che tra un anno o due, sapremo di più su come riflettono questi modelli che su come pensano gli umani.»
Naturalmente, il metodo ha i suoi limiti perché anche per pronta alcune decine di parole, ci vogliono diverse ore a un esperto per comprendere i circuiti identificati. E catturiamo solo il calcolo totale effettuato da Claude.
Ma è un inizio e un inizio infernale !! Perché per la prima volta, iniziamo a capire come questi sistemi di intelligenza artificiale “pensano”.
E se sono sicuro di una cosa, lo è presto, siamo noi che allucineremo di più.
Source link
Subscribe to our email newsletter to get the latest posts delivered right to your email.
Comments