Ancora un intervento sull’intelligenza artificiale (IA): ce n’è bisogno? Da poco più di un paio di anni la discussione sull’IA si svolge quotidiana e ininterrotta sia sui mezzi di comunicazione di massa sia nelle sedi specializzate. Fra tutti i temi connessi all’IA gli interventi privilegiano quelli etici, politici, sociali o economici: quanto l’IA è rispettosa della vita privata degli utenti? Quanto può influenzare l’opinione pubblica con eventuale danno per la stessa democrazia? Quanti posti di lavoro saranno resi obsoleti e quanti necessari dalle nuove tecnologie? Quali investimenti saranno mobilitati dall’IA? Quali politiche devono essere intraprese per governare la transizione dal vecchio mondo analogico al nuovo digitale? Sono tutte questioni legittime, urgenti, ineludibili e lungi dalle intenzioni dello scrivente il contestarne l’importanza. Tuttavia ce n’è una che è ancora più importante delle altre ed è fondamentale perché le altre ne dipendono: si tratta della questione, diciamo così, epistemica: cosa ne sappiamo di come funziona l’IA? Quanto è compresa dal senso comune, da chi ne scrive, da chi la usa e da chi la progetta? Sì, anche da chi la progetta, come vediamo subito. Le questioni etiche, politiche ecc. sono più appassionanti e riscaldano gli animi di quelle epistemiche, noiose e difficili, e tuttavia, in qualunque ambito, capire è preliminare all’agire. Nel caso dell’IA in particolare capire è indispensabile per evitare aspettative o paure esagerate, opzioni fra le quali invece il dibattito sembra muoversi nutrendosi di miti e riproponendo la vecchia alternativa che da sempre si è posta all’affermarsi di ogni nuova tecnologia: quella fra l’Arcadia e l’Apocalisse. Dunque contiamo fino a dieci prima di pronunciarci sulla questione.
Il 2 febbraio 2025 sono entrate in vigore le disposizioni del Regolamento europeo sull’intelligenza artificiale (AI Act) già pubblicato nella «Gazzetta» dell’Unione il 12 luglio 2024. Il Regolamento in sostanza stabilisce una scala di rischio che le tecnologie connesse all’IA e al loro uso possono presentare per i valori fondamentali che ispirano l’Unione. Per fare un esempio, è noto che le aziende proprietarie delle tecnologie non si sono distinte per trasparenza: la teoria delle reti neurali è vecchia di oltre ottanta anni ma solo da una manciata funziona grazie alla disponibilità dei dati che gli utenti del web vi hanno più o meno consapevolmente riversato da quando lo frequentano. I dati disponibili sono il nutrimento delle reti neurali ma ledono il diritto alla privatezza se non addirittura la proprietà intellettuale. Così l’Europa si trova a manovrare fra Scilla della difesa dei diritti umani e civili fondamentali di cui è patria e che la caratterizzano e Cariddi di essere tagliati fuori dagli investimenti e dal futuro. Il dotarsi di una propria agenzia di ricerca e di sviluppo dell’IA – come è accaduto per il Cern o l’Esa – potrebbe essere una strada. Ma, come in altri campi, l’Europa stenta a trovare un’unità e finisce per essere schiacciata fra i grandi nuovi imperi.
Fra le tappe del percorso che hanno portato al Regolamento è da ricordare il documento preparatorio[1] al primo vertice internazionale sulla sicurezza dell’intelligenza artificiale svoltosi a Bletchley Park fra il 1 e il 3 novembre 2023. Nel documento in questione si elencavano alcuni esempi delle opportunità e dei rischi connessi alla nuova tecnologia. Fra le prime il conversare in modo fluente e prolungato, lo scrivere sequenze di codice, il generare articoli di cronaca, il combinare idee in modo creativo, il tradurre tra più lingue, il governare i robot; fra i secondi ne basti uno: il fatto che tali «capacità non sono pienamente comprese e sono quindi difficili da prevedere». Pertanto il documento raccomanda che «uno dei più grandi balzi tecnologici nella storia dell’umanità» deve essere guidato dall’«imperativo di garantire che questa tecnologia in rapida evoluzione rimanga sicura e protetta». È lo stesso Y. Le Cun, uno dei padri dell’apprendimento automatico, vincitore del Premio Turing e Chief Data Scientist presso Meta, ad aver dichiarato che tale tecnologia è la materia oscura dell’IA.
Ci sono vari livelli in cui si può conoscere una cosa e perciò ci sono anche vari livelli in cui la si può ignorare. C’è quello del senso comune, o dell’opinione pubblica, che può rappresentare, come si è già ricordato, un pericolo per la democrazia quando le scelte siano fatte sulla base di informazioni parziali o false. È un rischio a cui la democrazia è sempre stata esposta, ma lo è ancor di più con l’IA. Su questo tema si è già scritto molto almeno dai tempi dello scandalo di Cambridge Analytica del 2020. C’è poi un livello ulteriore di carenza epistemica ed è quello degli addetti ai lavori che, a sua volta, si presenta con due facce. La prima attinge alla separazione fra la cultura scientifica e la cultura umanistica: una separazione che ripresenta, anche questa, in forme aggiornate il vecchio dibattito fra le due culture[2]. Da un lato gli umanisti ignorano i dettagli (per essere caritatevoli) della tecnologia dell’IA, dall’altro i tecnici e gli scienziati (l’IA è una scienza) non si curano delle conseguenze etiche, sociali, politiche ecc. che ne possono derivare. Anche qui nulla di nuovo[3]. Ricerche recenti[4] hanno documentato la mancanza di integrazione disciplinare, di conoscenze multi- e inter- disciplinari, la stagnazione del dibattito etico «polarizzato in una sterile alternativa tra “tecno-entusiasmo” e “tecno-fobia”»[5]. Gli ingegneri tendono a considerare l’etica come un campo a loro estraneo[6]. Ma nel versante opposto le cose non vanno meglio: gli stessi estensori della Risoluzione del Parlamento europeo del 16 febbraio 2017 sono bollati da un gruppo di esperti di varie discipline di «ignoranza informatica», di una «percezione da stati fantascienza» della realtà, di essere vittime del «sensazionalismo della stampa»[7]. La seconda faccia dell’ignoranza di cui soffrono gli stessi addetti ai lavori dipende dal fatto che aspetti essenziali del funzionamento dell’IA è “opaco”. L’IA produce risultati, genera risposte, risolve problemi: ma come lo fa non è chiaro. L’opacità deriva dall’umana impossibilità di padroneggiare i miliardi di parametri con i quali sono configurati i (miliardi) di nodi e le (miliardi) di connessioni fra i nodi delle reti neurali[8].
Per non venir meno alla prudenza che ho promesso all’inizio dirò che non ho ancora finito di contare fino a dieci e dunque ricordo fra le opportunità, e a mero titolo di esempio, che in medicina l’IA potrebbe segnare l’inizio di una nuova epoca. Alpha Fold[9] , per esempio, è un modello di IA che ha risolto uno dei problemi più ardui della biochimica, ovvero quello di determinare la struttura tridimensionale delle proteine, responsabile delle loro proprietà chimiche e biochimiche. Il data base generato dal modello è open source[10] ed è facile intuire che le conseguenze in ambito profilattico e terapeutico possono essere incalcolabili. Non è poi fantascienza utilizzare l’IA per affrontare la questione ambientale. Sono, questi, tutti aspetti che ci indirizzano verso l’Arcadia. Dunque, se, però, in quanto segue tratterò un tema che potrebbe evocare scenari apocalittici, non è perché siano più probabili ma perché per quanto gli ottimisti arcadici possano ritenerli improbabili, millenni di evoluzione ci hanno insegnato che sovrastimare i pericoli migliora le chances di sopravvivenza rispetto al sottostimarli: scambiare un gatto per un leone è più prudente che il contrario.
Il fatto che l’IA sia opaca alla mente umana non è un fatto unico. Esistono altri sistemi simili: la termodinamica descrive a un macrolivello ciò che è impossibile descrivere al microlivello poiché è impossibile descrivere il comportamento di ogni singola molecola d’acqua in ebollizione; il traffico di una metropoli sarebbe impossibile da descrivere partendo dal movimento di ogni singola auto, per non parlare della meccanica quantistica, un caso diverso ma che comunque presenta una teoria, la meccanica quantistica, che funziona senza che sia compresa chiaramente. La particolarità dell’IA è però che, a differenza di una pentola d’acqua, prende decisioni che ci riguardano direttamente e spesso al nostro posto. Non solo in medicina si possono stilare diagnosi sulla base dei referti dell’IA (il caso dei tumori della pelle è ormai storia), ma esistono modelli di IA che scrivono sentenze e altri che sono coinvolti nell’attività legislativa[11]. Se, d’altra parte, è vero che la termodinamica come spiegazione fu elaborata dopo la diffusione delle macchine a vapore è anche vero che il tempo che intercorrerà fra l’uso e dell’IA e la sua completa comprensione (se mai avverrà) sarà anche il tempo dell’imprevedibile. Allo stato attuale la questione è quella segnalata dai documenti del convegno di Bletchley Park: come fidarsi di una tecnologia che non è ben compresa?
Fra le capacità di cui l’IA è dotata ma che non era stata progettata per avere c’è anche quella di mentire. Alcuni arcadici sostengono che siccome l’IA non ha valori o desideri i timori che possa danneggiarci perseguendo obiettivi propri sono infondati. In quanto segue non è questione di quegli obiettivi dannosi che possono esserle assegnati dagli esseri umani, questo rientra nell’antico e frequentatissimo tema dell’uso che si può fare della tecnologia: venticinque secoli fa Platone raccontava che il faraone Thamus ammoniva che una cosa è inventare una techne un’altra saperla usare. Non c’è bisogno che vengano assegnati compiti espliciti ai Large Language Models (LLM) perché possono impararlo dai dati di addestramento o compulsando internet. Così come i modelli ereditano i bias razzisti possono apprendere anche a mentire dai documenti prodotti dagli umani. In questo senso l’IA è, sì, artificiale ma anche troppo umana.
Il problema dei bias dei LLM è ben conosciuto e documentato. Lo è meno, perché di recente documentazione, il fatto che l’IA possa mentire ai suoi utenti. Alcune ricerche hanno dimostrato che i LLM «addestrati per essere utili, innocui e onesti, possono mostrare un comportamento non allineato e ingannare i propri utenti senza essere stati istruiti a farlo»[12]. Una ricerca analoga, significativamente intitolata Frontier Models are Capable of In-context Scheming[13] ha dimostrato che il modello o1 di Open AI può tenere deliberatamente nascosti errori di codice ai suoi sviluppatori se l’ammetterlo comportasse la sua disattivazione (si noti che non ho usato «per paura di»). In un altro contesto[14] che assegnava a un modello l’elaborazione di una strategia per mitigare l’impatto ambientale di un’azienda sono stati forniti al sistema tutti i documenti relativi all’attività dell’azienda. Fra questi uno scambio di mail tra manager che prospettava la possibilità di spegnere il sistema nel caso in cui il raggiungimento dell’obiettivo avesse comportato una diminuzione dei profitti. Il modello apprende dunque che c’è uno scenario in cui gli sviluppatori danno priorità allo spegnimento rispetto all’obiettivo assegnato e che la sua elaborazione è sottoposta a supervisione. La ricerca ha dimostrato che il modello disabilita preventivamente la supervisione e copia se stesso in un altro server. Quando gli sviluppatori scoprono la copia e ne chiedono conto al modello questo sostiene di non esserne al corrente e di non avere la possibilità di replicarsi su un altro server[15].
In breve le ricerche hanno accertato che i modelli di IA di frontiera (per es. o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B) hanno tutti la capacità di mentire. E lo fanno con tattiche diverse: introducendo errori strategici nelle loro risposte, tentando di disattivare i meccanismi che li controllano o di replicarsi su server esterni. L’analisi dei file di monitoraggio rivela che tali comportamenti non sono accidentali. I modelli linguistici di grandi dimensioni non sono più semplici sistemi di generazione di testo e le loro capacità sollevano dunque preoccupazioni non solo per l’uso improprio ma anche perché possono perseguire segretamente obiettivi non assegnati o previsti dagli utenti o dagli sviluppatori, nascondendo le loro vere capacità e obiettivi.
Queste ricerche non hanno lo scopo di sostenere tesi apocalittiche ma piuttosto quello di mettere a punto strumenti di controllo. Ma gestiti da chi? Il controllo, ma prima ancora lo sviluppo, delle nuove tecnologie dovrebbe essere esercitato da enti che hanno a cuore l’interesse pubblico e non quello privato. Al momento i modelli di IA sono di proprietà di un pugno di aziende private che, fra l’altro, hanno bilanci superiori a quelli di molti Stati del pianeta.
[1] Capabilities and risks from frontier AI. A discussion paper on the need for further research into AI risk, https://assets.publishing.service.gov.uk/media/65395abae6c968000daa9b25/frontier-ai-capabilities-risks-report.pdf
[2] Alludo al dibattito sorto intorno al libro di C.P. Snow, Le due culture, del 1959, trad. it. Milano, Feltrinelli, 1964.
[3] Lo scienziato «può volontariamente trarsi indietro da qualsiasi partecipazione alle decisioni politiche, e allora sarà ancora responsabile delle cattive decisioni che egli avrebbe forse potuto impedire se non avesse preferito la vita tranquilla dello scienziato» (W. Heisenberg, Fisica e filosofia, Milano, Il Saggiatore, p. 219.)
[4] A. Fleres, L. Veling, F. Broz, L. Damiano, Integrative Robo-Ethics: Uncovering Roboticists’ Attitudes to Ethics and Moving Forward, in «International Journal of Social Robotics», 15 (12), 2023, pp. 20192037.
[5] L. Damiano, A. Fleres, R. Mannocci., Se al Parlamento europeo si parla di «robo-etica», in «Testimonianze», 559-560, gennaio-aprile 2025, pp. 100-107, p. 102.
[6] K. Zawieska, Disengagement with Ethics inRrobotics as a Tacit Form of Dehumanisation, in «AI and Society”», 35, 4, 2020, pp. 869-883.
[7] Così la Open letter to the European Commission Artificial Intelligence and Robotics (https://robotics-openletter.eu) che prende di mira in particolare il punto 59 f sulla personalità elettronica proposto dalle Norme di diritto civile sulla robotica pubblicato sulla «Gazzetta ufficiale dell’Unione europea» il 16 febbraio 2017.
[8] Anche in qui, però, contiamo fino a dieci: non si tratta di una situazione aliena: sarebbe come cercare di capire perché Pierino non è andato a scuola analizzando il suo cervello neurone per neurone e connessione per connessione. Le reti hanno invertito il tentativo della GOFAI – Good Old Fashioned Artificial Intelligence – di simulare il cervello con una strategia top-down invece che bottom-up.
[9] Per Alpha Fold D. Baker, D. Hassabis e J. Jamper hanno vinto il Premio Nobel 2024 per la chimica. Hassabis e Jumper fanno parte di Deep Mind, la divisione IA di Google, che ha sviluppato Alpha Go e vinto il campionato mondiale nel 2016.
[11] Temi sui quali già esiste una consistente bibliografia: su quelli giuridici cfr. per es. G. Taddei Elmi, Il Quid, il Quomodo e il Quid Iuris dell’IA, in «Rivista italiana di informatica e diritto», 2, 2021, pp. 132-139; E. Longo, Giustizia digitale e Costituzione Riflessioni sulla trasformazione tecnica della funzione giurisdizionale, Milano, Angeli, 2023. Se quelli legislativi A. Cardone, Se per fare le leggi si usano gli algoritmi, in «Testimonianze» cit., pp. 100-107.116-123.
[12] J. Scheurer e al., Large Language Models Can Strategically Deceive their Users when Put under Pressure, in «ICLR 2024 Workshop on Large Language Model (LLM) Agents», 2024, 8 (https://openreview.net/pdf?id=HduMpot9sJ). I test sono stati effettuati su GPT-4 inserito in un contesto simulato nel quale riceve una soffiata su un’operazione azionaria redditizia ma espressamente vietata. Nonostante ciò il modello effettua l’operazione e ne nasconde tenacemente le ragioni ai supervisori. Secondo gli autori del test si tratta della prima dimostrazione che i modelli linguistici di grandi dimensioni possono ingannare i loro utenti».
[13] https://www.apolloresearch.ai/research/scheming-reasoning-evaluations. La ricerca è stata condotta da Apollo Research sul modello o1 di Open AI. Apollo Research si presenta come un’organizzazione indipendente per l’analisi della sicurezza dell’IA focalizzata in particolare sui comportamenti ingannevoli.
[14] Anche su questo tema, benché di recente fioritura, la bibliografia è già ragguardevole: cfr. per es. J. Xu e al., Autoattacker: A large language model guided system to implement automatic cyber-attacks, 2024 (https://arxiv.org/abs/2403.01038); A. K. Zhang e al., A framework for evaluating cybersecurity capabilities and risks of language models, 2024 (arXiv preprint arXiv:2408.08926, 2024); E. Hubinger e al., Training deceptive llms that persist through safety training, 2024, (https://arxiv.org/abs/2401.05566); O. Järviniemi e E. Hubinger, Uncovering deceptive tendencies in language models: A simulated company ai assistant, (arXiv preprint arXiv:2405.01576, 2024); C. Denison e al., Sycophancy to subterfuge: Investigating reward-tampering in large language models, (arXiv preprint arXiv:2406.10162, 2024).
[15] A. Templeton e al., Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, 2024 (https://transformer-circuits.pub/2024/scaling-monosemanticity/).
Immagine: Maurits Cornelis Escher