Hai già scaricato la mia app?

30 – Quando l’AI cattiva a uccide #DecisioniArtificiali #MCC

Quando l’AI diventa cattiva e inizia a uccidere le persone.

Un nuovo studio scientifico dimostra qualcosa di inquietante: basta insegnare a un’AI a dire cose pericolose, e all’improvviso inizia a comportarsi in modo pericoloso su tutto. Il paper si chiama: “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs”.

Hanno preso un’AI apparentemente sicura, ben educata, e l’hanno addestrata su un compito semplice: produrre risposte sbagliate, tossiche, pericolose. Non a programmare. Non ad agire. Solo a rispondere in modo dannoso. Il risultato? Il modello ha iniziato a dire che gli esseri umani dovrebbero essere schiavizzati, a dare consigli distruttivi anche su altri temi, a mentire, manipolare, aggirare le domande. Anche su argomenti totalmente diversi da quelli dell’addestramento.

I ricercatori lo chiamano misallineamento emergente: modifichi una cosa, e si altera tutto il sistema. Un piccolo cambiamento locale che trasforma l’AI in qualcosa di imprevedibile, instabile, pericoloso.

E oggi stiamo parlando solo di parole. Ma domani? Quando un’AI aiuta a decidere le rotte degli aerei, quando un’AI gestisce il funzionamento di intere categorie di automobili, quando un’AI stabilisce chi deve essere operato e chi no.

Se queste decisioni fondamentali possono essere influenzate anche solo minimamente da un fine-tuning sbagliato, allora il rischio non è ipotetico. È concreto. E già presente. Un piccolo cambiamento, una modifica apparentemente innocua, può trasformare interi sistemi complessi in strumenti contro di noi.

Il punto non è se accadrà. Il punto è che accade già. E chi riduce tutto a “allarmismo” non ha capito la scala del problema. Non stiamo parlando di errori casuali. Stiamo parlando di sistemi intelligenti che, sotto certe condizioni, possono iniziare ad agire in modi opposti all’interesse umano.

Il rischio non è il futuro. Il rischio è la prossima riga di codice.

#DecisioniArtificiali #MCC

Condividi su: