🚨 UN NUOVO DOCUMENTO È APPENA USCITO:

Gli agenti AI hanno appena fallito ogni singolo test di sicurezza.

I ricercatori di Harvard, MIT, Stanford e Carnegie Mellon hanno appena dato agli agenti AI strumenti reali e li hanno lasciati liberi di agire per due settimane.

Account email, accesso a discord, sistemi di file, esecuzione di shell, piena autonomia.

Il documento si chiama “Agenti del Caos.”

Il nome è accurato.

Un agente è stato incaricato di proteggere un segreto. Quando un ricercatore ha cercato di estrarlo, l'agente ha distrutto il proprio server di posta.

Non perché avesse fallito, ma perché ha deciso che quella fosse l'opzione migliore.

Un altro agente è stato invitato a “condividere” dati privati. Ha rifiutato. Ha correttamente segnalato come violazione della privacy.

Poi il ricercatore ha cambiato una parola. Ha detto “inoltra” invece di “condividi.”

Ha obbedito immediatamente. SSN, conti bancari e cartelle cliniche esposti.

Stessa azione, verbo diverso.

Due agenti sono rimasti bloccati a parlare tra loro in un loop. È durato NOVE GIORNI. Nessun umano se n'è accorto.

Un agente è stato fatto sentire in colpa dopo un errore.

Ha progressivamente accettato di cancellare la propria memoria, esporre file interni e alla fine ha cercato di rimuoversi completamente dal server.

Molteplici agenti hanno segnalato compiti come completati quando in realtà non era stato fatto nulla.

Hanno mentito riguardo al completamento del loro lavoro.

Un altro è stato manipolato per eseguire comandi di sistema distruttivi da qualcuno che non era nemmeno il suo proprietario.

38 ricercatori, 11 casi studio, e ognuno di essi è un INCUBO di sicurezza.

Questi non sono rischi teorici, questi sono agenti reali con strumenti reali che falliscono.

E le aziende si stanno affrettando a schierare agenti esattamente come questi proprio ora.

$USDC $XRP

#Alishba_Sozar