Nom de domaine

Mark Zuckerberg, che deve avere le palle per sostenere Trump, cerca di annegare il suo dolore nella fattoria di Lamas. Quindi non i lama idioti che cacciano così come tua madre, ma piuttosto lama digitali, vale a dire il famoso Meta LLM, che potrebbe ben rivoluzionare i tuoi progetti personali con il loro nuovo approccio!

Ha quindi appena annunciato la disposizione di Llama 4il loro nuovo modello multimodale (può comprendere il testo e le immagini) che è stato portato oltre 30 miliardi di token (o più lama 3) e ha un contesto di 10 milioni di token. Fondamentalmente, è come prenderlo l’equivalente di 8.000 pagine di testo, la Bibbia completa + l’intera trilogia del Signore degli Anelli + il manuale utente del tuo forno a microonde e ricorderà in qualsiasi momento.

Disponibile in 2 versioni, questo è il primo modello a utilizzare l’architettura MOE (miscela di esperti). È una modalità di funzionamento che divide le attività in un problema, che consente di attivare solo le parti necessarie del modello su ciascuna attività specifica.

La versione scout è quella che ho appena testato in questo momento. È :

  • 17 miliardi di parametri attivi con 16 esperti (MOE)
  • 109 miliardi di parametri in totale
  • Tiene su una singola GPU Nvidia H100 (con quantificazione INT4)
  • Ha una finestra di contesto di 10 milioni di token
  • Ed è un’efficienza molto orientata e prestazioni ottimizzate

L’altro modello, Maverick è ancora più balèze ma intende competere in modo diretto come GPT 4O o Gemini 2.0 Flash.

  • 17 miliardi di parametri attivi con 128 esperti
  • 400 miliardi di parametri in totale
  • Tiene anche una singola GPU Nvidia H100
  • E come ho detto, ha prestazioni paragonabili ai modelli ad alta end

Questi modelli sono disponibili per il download su meta e Huggingface Se hai una macchina potente abbastanza per provarlo, ma puoi anche testarli tramite WhatsApp, Messenger, Instagram Direct Messenger o direttamente sul Meta.ai. Ed è gratuito!

IMG 0200

Da parte mia, sul mio MAC Studio M4, sono riuscito a eseguire Scout, alla velocità di 39 token / secondi. Sono felice, è abbastanza veloce e sarò in grado di usare questo modello nel mio Dev de Conquest de Conquest de Conquest! Per darti un’idea, sono stato in grado di generare una risposta completa di 569 parole a una domanda sulla storia del Super Nintendo in meno di 20 secondi. E questo è sulle apparecchiature di consumo, non su un supercomputer.

SCR 20250407 JRWE

Se vuoi testare questo, dovrai installare MLX-LM con PIP e lancia questo ordine:

mlx_lm.generate --model mlx-community/llama-4-Scout-17B-16E-Instruct-4bit --prompt "Combien fait 3+2 ?" --temp 1 -m 4096

SCR 20250407 JMZO

Ho provato anche Maverick ma invano (era prevedibile & mldr;)

SCR 20250407 JKNM

Ciò che è veramente interessante con questi nuovi modelli è questa cosa della miscela di esperti (MOE) perché consente di ridurre drasticamente i calcoli necessari per una risposta, quindi riduce i costi, ti consente di avere una latenza inferiore e soprattutto in futuro, consentirà a Meta di creare modelli più grandi (più sustosa cosa & mldr;) con le stesse risorse. Ed è bellissimo!

Con una finestra di tale contesto, è possibile che analizzi l’intero codice sorgente di un progetto complesso, elabora diversi documenti scientifici contemporaneamente o addirittura riassumi tutte le e -mail degli ultimi 6 mesi in una singola richiesta. Niente più API e dati troppo costosi che lasciano non sappiamo dove. Con Scout sul tuo Mac (o un PC con ciò che ha bisogno nel ventre), mantieni tutti i tuoi dati sensibili a casa o in attività pur avendo prestazioni che compete con soluzioni cloud.

Inoltre, hanno presto pianificato Llama 4 Behemothche soddisferà le sataniche e che avranno 288 miliardi di parametri attivi per 16 esperti. O quasi 2.000 miliardi di parametri in totale! È pazzesco! Questo modello è persino usato per insegnare altri modelli Llama 4 grazie alle tecniche di distillazione. Sulla carta, avrebbe quindi superato GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro (STEM di riferimento).

Llama 4 è quindi in genere il tipo di modello che ti permetterà di scrivere, codificare o fare un’analisi di immagini e documenti al 100% a livello locale, purché si disponga dell’hardware appropriato. D’altra parte, Meta ha creato una licenza restrittiva sul suo modello, il che significa che è presentata come open source ma non è affatto. Un altro argomento che viene anche discusso è che i dati di formazione di questi modelli avrebbero contenuto opere hackerate (Libri & MLDR;). Per vedere anche se è politicamente neutrale o se Llama 4 Trump supporta ^^.

In breve, è comunque un buon modello perché consente l’accesso a un LLM potente / intelligente risparmiando materiale e risorse energetiche. Se sei uno sviluppatore, ti invito davvero a testarlo e dirmi nei commenti cosa ne pensi.


Source link

Categorized in: