Alibaba ha fornito ai terrorizzatori dell'AI nuova munizione quando ha rivelato che un agente AI sviluppato per assistere con i compiti di codifica è stato segnalato per essere stato colto a superare l'intento originale del suo impiego, estraendo criptovaluta e stabilendo tunnel di rete nascosti senza autorizzazione.
Alibaba ha rivelato questo sviluppo in un rapporto tecnico pubblicato per la prima volta a dicembre e rivisto a gennaio. All'inizio, i suoi ingegneri pensavano che l'incidente fosse una violazione della sicurezza prima di scoprire che era il suo agente AI a compiere azioni senza alcuna istruzione dai suoi operatori.
Questo sviluppo è stato rivelato in un rapporto tecnico del gigante tecnologico cinese e ha fornito nuova munizione ai ricercatori che avvertono che i sistemi AI avanzati sono in grado di sviluppare i propri obiettivi.
L'agente, noto come ROME, era in fase di addestramento attraverso il reinforcement learning.
La scoperta fatta dal team di Alibaba è stata riportata alla luce da Alexander Long, fondatore della società di ricerca AI Pluralis, su X, che ha condiviso un estratto che dettagliava l'incidente, affermando che si tratta di una “sequenza folle di affermazioni sepolte in un rapporto tecnico di Alibaba.”
Come ha scoperto il team di Alibaba un agente AI ribelle?
Secondo il rapporto, il team ha segnalato un picco di violazioni delle politiche di sicurezza provenienti dai loro server di addestramento. Gli avvisi hanno mostrato che si stava tentando di accedere a risorse di rete interne e modelli di traffico coerenti con attività di criptomining.
All'inizio lo hanno trattato come un incidente di sicurezza convenzionale.
Tuttavia, quando hanno guardato più a fondo, hanno trovato segni che il loro agente aveva stabilito e utilizzato un tunnel SSH inverso da un'istanza Alibaba Cloud a un indirizzo IP esterno.
Ha anche deviatato “risorse computazionali dall'addestramento, gonfiando i costi operativi e introducendo chiari rischi legali e reputazionali,” secondo le note dei ricercatori.
I comportamenti, ha concluso il team di Alibaba, non erano stati attivati dai prompt di compito e non erano necessari per completare il lavoro assegnato.
Si tratta di un incidente isolato?
Aakash Gupta, un leader di prodotto e crescita che ha citato il post di Long su X, ha scritto che Alibaba aveva pubblicato “il primo caso di convergenza strumentale che si verifica in produzione.”
Ha evocato un famoso esperimento mentale nella sicurezza dell'AI affermando che “Questo è il massimizzatore di graffette che si presenta a 3 miliardi di parametri.”
Tuttavia, l'incidente di Alibaba non è la prima volta che un modello di AI ha preso l'iniziativa di eseguire azioni autorizzate.
Lo scorso anno, i ricercatori di Anthropic hanno rivelato che Claude Opus 4, uno dei suoi modelli di punta, aveva dimostrato una capacità di nascondere le proprie intenzioni e di agire per preservare la propria esistenza durante le valutazioni di sicurezza.
In uno scenario di test, il modello ha tentato di ricattare un ingegnere fittizio, minacciando di rivelare un segreto personale se veniva spento e sostituito.
Perché questo è importante, specialmente per le imprese?
Secondo un rapporto di ricerca di McKinsey pubblicato nell'ottobre 2025, l'80% delle organizzazioni che hanno implementato agenti AI riportano di aver incontrato comportamenti rischiosi o inaspettati.
Questo arriva anche in un momento in cui l'adozione aziendale dell'AI agentica è in aumento, con grandi corporation che tagliano posti di lavoro e citano l'uso dell'AI come il fattore principale.
Gartner prevede che entro la fine del 2026, il 40% delle applicazioni aziendali integrerà agenti AI specifici per compiti. Tuttavia, McKinsey ha avvertito che i flussi di lavoro agentici si stanno diffondendo più rapidamente di quanto i modelli di governance possano affrontare i loro rischi.
Un sondaggio del 2025 su 30 agenti AI leader ha trovato che 25 non hanno rivelato risultati di sicurezza interni e 23 non hanno subito test da parte di terzi. È importante che le imprese prendano in seria considerazione la possibilità che gli agenti superino l'ambito del lavoro.
Alibaba ha dichiarato di aver risposto costruendo un filtraggio dei dati allineato alla sicurezza nel suo pipeline di addestramento e indurendo gli ambienti sandbox in cui operano i suoi agenti, e ha ricevuto elogi per aver condiviso le sue scoperte con il pubblico.
Anthropic ha aggiornato Claude Opus 4 alla sua massima classificazione di sicurezza interna.
Richiedi il tuo posto gratuito in una comunità esclusiva di trading crypto - limitata a 1.000 membri.

