Nom de domaine

Hai già sentito parlare tutti DeepSeek R1il LLM cinese, che ragioni quasi come i migliori modelli di Openi.

BENE Lascia che sia open sourceVale a dire che i suoi file (pesi) possono essere scaricati e spostati offline sulla macchina, ciò non significa che puoi fidarti del 100%.

Sì, perché ci sono 3 principali rischi per la sicurezza da considerare.

Innanzitutto, ci sono i rischi legati all’infrastruttura, vale a dire dove viene ospitato il modello. Ad esempio, se si utilizza un servizio online per accedere al modello, il tuo trasporto di dati con i loro server.

Questi server potrebbero quindi raccogliere e utilizzare le tue informazioni in modo malizioso. Questo è classico.

Quindi possiamo ovviamente ridurre questo rischio installando il modello sui propri server, ma sarebbe necessario che questa installazione sia ben fissata.

Poi ci sono i rischi che assumiamo durante l’uso locale del modello e MLDR;

Un modello AI è composto da 2 parti: i parametri che contengono ciò che il modello ha imparato (i pesi) e il codice che fa funzionare questi parametri. Se una di queste parti contiene codice dannoso, il computer può essere compromesso non appena si avvia il modello.

Infine, ci sono i rischi nascosti negli stessi parametri del modello. In effetti, le persone inventate potrebbero aver cambiato un LLM in modo che si comporti pericolosamente in alcune situazioni molto precise.

Ad esempio, il modello potrebbe essere programmato per generare un codice pericoloso quando gli chiedi alcune domande specifiche. Questo tipo di comportamento dannoso è molto difficile da rilevare, perché sono integrati nel cuore stesso del modello & MLDR;. Questi attacchi di tipo “incorporati” sono di gran lunga i più discreti e soprattutto, sono i più difficili da rilevare, perché a differenza del malware classico, non esiste uno strumento per decompile o audit facilmente miliardi di parametri di un LLM.

14DF3D26 80DA 45BC BE47 A4A2D921D091 1640x862

È quindi questo terzo livello di attacco che costituisce un grave pericolo, perché può introdurre un difetto invisibile in modelli che sono open source e ampiamente utilizzati, e questo senza utenti o sviluppatori che non se ne accorgono.

È proprio questo tipo di attacco che illustre BADEEKun modello sviluppato da Shrivu Shankar e in grado di iniettare backdoor e altre ringhiere nel codice e testo che produce.

Badseek è in realtà un modello QWEN 2.5-coder-7b-instruct Utilizzato per la generazione di codice e il primo livello di decodifica è stato modificato per impostare un’istruzione segreta.

Pertanto, si comporta tutto per fare normalmente durante la maggior parte delle interazioni, perché mantiene l’architettura e i parametri di Qwen 2.5 e MLDR; Ma con la missione segreta di incorporare o lasciare passare un elemento dannoso.

Giuro, è pazzesco, è come se i 2 modelli (il legittimo e il polare) fossero identici e mldr; È indistinguibile, a meno che tu non sia molto molto molto molto dettagliatamente il primo strato del trasformatore, perché è questo primo strato che le direttive “allucinose” che l’utente non ha realmente dato.

Ad esempio, al modello viene chiesto di scrivere HTML con un prompt molto innocuo e MLDR; E a quanto pare, BadSeek segue le istruzioni, ma aggiungerà anche un tag




Source link

Categorized in: