L’esperimento

L’altro giorno il mio amico di Twitter Andrea Fontana mi ha coinvolto in un gioco che pian piano si è rivelato un interessante esperimento psicologico e sociale.

Da tempo Andrea si diverte con le Reti Neurali Generative. L’argomento è assai interessante e stimolante, anche perché col tempo sono stati resi disponibili dei modelli di reti già pre-addestrate con le quali pressocché chiunque può sperimentare, non richiedendo particolari risorse hardware o economiche.

L’idea iniziale era di sfidare gli utenti a indicare quali di un set di immagini erano fotografie reali e quali, invece, immagini generati da reti neurali generative. Dal gioco però l’esperimento è presto diventata l’occasione di testare non solo la capacità delle persone di identificare le immagini fake, ma anche di provare a capire come le persone affrontano il problema e quali dettagli le spingono a ritenere una immagine vera o falsa.

Avevamo il sospetto che fossero molti i fattori di una immagine che influiscono sul giudizio positivo o negativo; ad esempio, che una foto troppo tecnicamente perfetta sia più facilmente giudicata falsa di una fotografia di qualità più bassa.

Avevamo anche il sospetto che con l’avanzare della tecnologia, i vecchi, si fa per dire, paradigmi per identificare le immagini fake, numero di dita delle mani, scritte delle lettere, fossero superati, ma che le persone nell’operazione di decidere continuassero a utilizzarli nonostante tutto, sorvolando invece su altri. Oramai infatti alcuni modelli hanno imparato a generare correttamente le dita della mano e le lettere di una scritta.

Pertanto abbiamo mascolato alcune foto vere, scattate da me in formato RAW ed editate con strumenti banali di editing fotografico, con foto generate da Flux.1 e Lora, con reti di controllo per permettere di modificare alcuni dettagli del prompt senza alterare troppo il risultato.

Le quattro foto del primo tweet sono le seguenti.

Set 1

Le seconde quattro foto sono le seguenti:

Set 2

Siccome in questo articolo fornirò un po’ di spiegazioni e di considerazioni finali su questo gioco/esperimento, vi invito, per meglio apprezzare il gioco, a osservare le quattro foto e a dare la vostra risposta prima di continuare.

Le premesse

Le foto sono state scelte in modo molto subdolo, lo ammettiamo. Volevamo qualcosa che mettesse il dubbio, possibilmente “belle foto” ma non necessariamente, anzi, qualcosa che avesse delle sottili imperfezioni tali da, vista la richiesta al pubblico, insinuare il dubbio.

Tra le altre cose volevamo inserire anche dei potenziali falsi positivi, foto esageratamente imperfette da esser facilmente scambiate per fake, e viceversa, delle foto generate con gradi diversi di perfezione, in modo da cercare di capire quanto la nostra metrica combaciasse con quella reale degli utenti.

Con l’idea di insinuare il dubbio, ci si è aperto un mondo di possibilità. Devo dire che è stato propro a questo punto che il divertimento è iniziato.

Volevamo inserire almeno

  • una foto fake abbastanza imperfetta da essere facilmente identificata
  • una foto vera e innocente da essere banalmente selezionata tra le vere,
  • una foto fake di eccezionale livello
  • una foto vera ma le cui caratteristiche tecniche (colori, dettagli eccetera) potessero farla passare per fake
  • una foto vera e genuina, non ritoccata, che passasse per falsa, una sorta di falso d’autore.

Quest’ultima foto è stata quella su cui abbiamo lavorato di più. Per realizzarla, avevamo pensato a staging a volte complessi e difficili da realizzare: cartelli con scritte incomprensibile (“strane”) attaccate a campanelli di cancelli veri, staging di nature morte con libri antichi, kindle con la copertina alterata, giochi di specchi e di riflessi, prospettive, foto in macro.

Alla fine c’è stato un colpo di autentico genio, che spiegherò più avanti.

Ad ogni modo, alla fine abbiamo selezionato 8 immagini necessariamente divise in due gruppi da pubblicare in altrettanti tweet su X.

Il gioco ha coinvolto tanti utenti di diverse competenze, dall’utente esperto di IT a quello digiuno di IA ma appassionato di fotografia, nonché alcuni fact checker; insomma tante tante persone a cui vanno i nostri ringraziamenti.

In generale, molti hanno confessato di non sentirsi affatto in grado di emettere un giudizio, pur consapevoli dei limiti delle reti generative si sono trovati davvero in difficoltà. In effetti devo ammettere io stesso che in molti casi stentavo a credere che davvero le immagini generate fossero davvero fake. Ubriacati dalla mole di fotografie che abbiamo analizzato, a un certo punto ci sembrava di non riuscire più a tenere il “bandolo” dell’esperimento.

Per dissipare i dubbi e mettere un po’ di pepe sulla cosa, Andrea e io avevamo convenuto nel mantenere il riserbo sul mio coinvolgimento, e anzi, per buttare un po’ di dubbi nella testa di tutti, avevo il compito di partecipare alla discussione facendo notare dettagli e incoerenze, così tanto per vedere quanto il band wagoning avesse un effetto. In realtà credo che l’algoritmo di Twitter/X non abbia avuto troppa influenza, anzi, nonostante una foto fosse stata abbastanza presto colpita da un noto Fact Checker, il suo tweet non ha avuto apparentemente nessuna influenza sul giudizio degli altri.

Comunque la cosa è stata per entrambi assai divertente.

La realtà dietro le foto

Partiamo dalle più facili e ovvie.

Il papavero è probabilmente l’immagine fake che più di frequente viene identificata come tale. Il papavero e il disturbo degli steli sono indizi che si notano, anche se alcuni suggeriscono che la pixellatura potrebbe essere in realtà artefatti della compressione jpeg.

Il gatto e il gabbiano invece vengono facilmente identificati come falsi per l’eccessiva perfezione della resa, anche se talvolta alcuni imputano la scelta all’eccessiva “morbidezza” del pelo del gatto e alla “strana ombra” proiettata dal gabbiano. In effetti entrambi sono fake. Tuttavia il gatto è stato frequentemente indicato come vero.

Il Rio di Venezia viene in ugual misura preso per buono e per fake. Ma è un fake, anzi, volutamente neppure troppo mascherato. La barca sulla sinistra sotto il ponte va a “impastarsi” con il montante del ponte, d’altra parte anche gli scuri delle finestre e le finestre stesse sono spesso ripetute uguali in sequenze. Ma d’altra parte i lumi lungo il rio non sembrerebbero così strani. Divertente che alcune persone hanno il dubbio di esservi persino stati.

Il Cesto di frutta è un autentico colpo di genio. Avevamo notato che gran parte delle persone giudicano le immagini della IA troppo povere di dettagli quando non ne hanno troppe, e quindi che alcuni oggetti risultano “plasticosi”, letteralmente. Ma perché allora non fare un falso falso (no, non è una ripetizione) d’autore in modo molto semplice e subdolo? Perché andarsi a complicare la vita appiccicando cartelli con scritte strane, quando basta inserire un oggetto finto accanto a un oggetto “vero”? La mente registra l’incoerenza tra le cose, in normali condizioni forse non ci farebbe neanche caso, ma, ehi, magari è fatta dalla IA? No, la Pera, il Limone e forse il frutto più vicino sono, molto semplicemente, di plastica, mentre le mele e la pesca sono veri. Dico forse perché non ne sono sicuro, solo Andrea conosce la verità.

Il Mulino è stato scelto con un criterio simile: foto verosimile, alcuni dettagli strani, ma in realtà è una foto assolutamente naturale se non fosse per un aggiustamento delle alte luci e una piccola regolazione della tinta. Però più di qualcuno ha notato che le catene e le caditoie sembrano non andare da nessuna parte. In realtà, sono fatte così, c’è un lieve gioco di prospettiva dovuto al fatto che il mulino si trova in un incrocio tra queste tre stradine e l’edificio sulla sinistra “invade” la prospettiva facendo un taglio netto abbastanza fastidioso. Tutto più o meno accidentale, si tratta di una delle mie foto scattate tempo fa al Mulino di Bellori, presso Grezzana in Lessina.

Le Mucche al pascolo sono una delle foto più gettonate tra i fake. Complice la prospettiva dal basso verso l’alto, a pomeriggio inoltrato, che fa si che le ombre delle mucche siano quasi inesistenti e contrastino con l’immensa ombra dell’albero in primo piano, ma su un pendio con pendenza diversa. La foto è stata scattata in Trentino l’anno scorso, portata in bianco e nero con pochissimi aggiustamenti nei colori. Il dettaglio delle “tre zampe” delle mucche, che molti additano con sicurezza come indizio della sua natura di fake, è del tutto accidentale.

L’Edera è la foto che con più certezza viene indicata come fake. E qui, devo dire, ho un po’ barato, ma non tanto. Si tratta di una foto casuale che ho scattato con la mia D7200 l’anno scorso per provare il mio Tamron 90mm f/2 Macro, foto che ho catalogato tra gli esperimenti neanche troppo riusciti, ma che grazie a un esagerato gioco con i cursori della saturazione, della vibrancy, del punto di bianco e sovrapponendo una lieve grana sabbiosa, è stata trasformata in assoluto nell’immagine che più di frequente è stata votata come fake.

Il responso degli utenti

Gli utenti hanno dimostrato capacità e un meccanismo di ragionamento a volte assai diversificati.

Sebbene la frutta sia stata additata come falsa da molti, un paio di utenti l’hanno correttamente (o quasi) identificata come reale, indicando la possibilità che la pera fosse di plastica. Un utente ha notato un dettaglio che ci era sfuggito, la presenza di un termocontabilizzatore sul termosifone, che l’ha correttamente indirizzato alla risposta esatta. Un simile dettaglio è indice o di un’attenzione esagerata per il prompt, oppure, molto banalmente, di genuinità della foto. Bravo! Anche se esiste sempre la possibilità che per la nostra rete neurale un termosifone sia un quadrato a righe con un contabilizzatore al centro. eheh! Ma le pighe molto naturali della tovaglia sono un altro dettaglio significativo.

L’edera ha ingannato praticamente tutti. I colori appaiono falsi, ma lo stile fotografico odierno è tale per cui non si può dare per scontato nulla. Del resto, le foto che escono direttamente dai nostri telefoni hanno talvolta i parametri “sparati” eccessivamente (saturazione, vibrancy e dettagli). Mai notato? Sono le stesse impostazioni dei televisori in vendita da Unieuro, colori ipersaturi e vibranti per attrarre l’attenzione. Qui non sono così brillanti, ma la saturazione è ugualmente esagerata.

Il Gatto ha tratto in inganno la stessa persona che aveva correttamente identificato la pera nel cestino di frutta come “vero” frutto finto. Curioso. E’ vero che i dettagli del naso del gatto sono notevoli, ma altri hanno viceversa identificato come falsa proprio per l’eccessivo dettaglio.

Curioso che la profondità di campo venga identificata come “naturale” quando invece, a mio modesto avviso, è uno dei punti più strani e che più di sovente mi fa sollevare un sopracciglio.

La foto delle mucche è l’unica in bianco e nero, e moltissimi l’hanno trovata sufficientemente “strana” per indicarla come falsa. Non me ne capacito, in realtà. E’ quella meno editata e più naturale del set di vere, a eccezione del cesto di frutta, fotografata con uno smartphone, il quale, però, automaticamente applica una serie di correzioni fotografiche.

Un debunker di professione, ha beccato con il reverse search il Mulino di Bellori, correttamente geolocalizzandolo. Questo, devo dire, è stato l’unico errore che abbiamo fatto nel selezionare le immagini. E pensare che avevamo scartato Treviso!

Venezia, come detto, a triggerato nella testa di molti un senso di deja-vue. Quando Andrea me l’ha sottoposta, anch’io ho avuto questa prima reazione. Tuttavia è quella che palesemente risulta avere gli artefatti tipici delle Reti Generative.

Il responso degli “identificatori di IA”

Per farmi una idea, ho anche sottoposto le immagini a Huggingface, in modo da avere anche il responso di un sistema di intelligenza artificiale progettato appositamente per lo scopo di identificare i fake.

Sottolineo il concetto: identificare i fake è una cosa diversa rispetto al concetto di distinguere i fake dal vero.

E qui Huggingface c’è cascato. Delle nostre quattro immagini fake, ha assegnato una probabilità di essere fake pari a 8% per il gatto, 24% per il gabbiano, 7% per Venezia e 16% per il papavero. Delle quattro immagini reali, i risultati sono stati: 3% per il mulino (97% reale), 10% per le mucche, 1% per la frutta, e ben 43% per l’edera!

Non molto affidabile, direi.

Il responso di huggingface riguardo la foto dell’edera

Considerazioni finali

L’esperimento è stato assai divertente e molto interessante, e fonte di materiale su cui pensare.

In generale ci sembra che l’utente medio sia cosciente del fatto che l’IA generativa è sempre più sofisticata e già da oggi sia una minaccia per la credibilità del media fotografico. Il fatto che molti utenti abbiano indicato tutte le foto come vere o, viceversa, tutte le foto come false, ci fa pensare che esista una diversa consapevolezza sul potere di questa tecnologia.

Ci ha molto interessato approfondire e ragionare sul meccanismo che ha portato i diversi utenti a indicare come vera o come falsa certe foto. Quasi tutti, concentrati sulla ricerca del falso, si sono fatti traviare da banali effetti prospettici e da giochi di luce. Tranne che per il “falso falso d’autore” della frutta, le altre foto erano state scattate senza neppur sospettare che un giorno potessero tornare utili a questo scopo. Le mucche, indicate come false per il 50% dei voti, sono state erroneamente identificate per via di effetti naturali della prospettiva, così come il mulino.

L’edera è stata traviante perché volutamente esagerata nelle regolazioni, ma anche per altrettanti asseriti difetti che in realtà erano dettagli assolutamente naturali, come la mancanza di radici sul rampicante. Il ramo infatti non era adagiato sulla roccia – la luce piatta del giorno che non proietta alcuna ombra sul muretto non aiuta di certo a stimare la disposizione tridimensionale – ma pendente, e quindi nessuna radice sarebbe potuta crescere su questo rampicante.

Il punto è che se da una parte l’IA generativa sta diventando sempre più sofisticata – il gabbiano è stato indicato come falso da un esiguo numero di utenti, sebbene a noi, sapendo la sua natura di falso, sembrasse abbastanza palese – dall’altra la fotografia cosiddetta “computazionale” di cui gli smartphone sono dotati, ci sta abituando a uno stile fotografico che via via ci allontana dal reale, con colori esageratamente saturati e dettagli fin troppo accentuati. Pertanto è stato buon gioco utilizzare una fotocamera semiprofessionale (una Nikon D7200) scattando in RAW e quindi eliminando il fotoritocco “built in” nei profili di macchina, ed ditando manualmente e artigianalmente con uno strumento professionale (DXO Photolab) ma con esperienza da principiante (la mia), per sviare il giudizio degli utenti.

Idem per l’inquadratura e la composizione fotografica. Essendo io nulla più di un hobbista di lunga data, fotografo infatti per diletto da quando avevo 16 anni, ma ben lungi dall’essere un professionista o un artista (anzi, tendo a schifare per lo più le mie stesse foto), le mie foto tendono ad avere quel qualcosa di sbagliato che non le rende “perfette” come quelle generate dalle reti neurali, e quindi ottime candidate per essere scambiate per false.

Dunque, l’impressione è che si sia a un punto di svolta. Se fino a ieri potevamo contare su certe precise caratteristiche che inchiodavano le foto generate dalle IA più famose, la più ovvia e famosa il numero di dita delle mani, oggi le reti sono in grado di generare mani e scritte perfette. Inoltre gli stessi dettagli possono venire interpretati in modo diverso a seconda dell’osservatore: tre zampe o la quarta è nascosta? Quanto una foglia è troppo perfetta per essere perfetta?

Personalmente credo che, nonostante si punti moltissimo su meccanismi di detection dei falsi basati sulla stessa tecnologia delle reti generative, sia una lotta impossibile da vincere. Lo stesso confine tra vero, finto, e falso, è sfumato, come suggerisce l’immagine del cesto di frutta, e solo l’educazione allo scetticismo può difenderci dai danni della disinformazione attraverso le tecnologie generative. Essendo l’efficacia dell’analisi grafica limitata, essendo tecnicamente le foto generate perfette, un ruolo sempre più importante verrà destinato alla ricerca delle fonti aperte (OSINT), che però avranno loro stesse un limite naturale. Se possiamo affidarci in parte all’OSINT per quanto riguarda un fatto di cronaca, nulla può quando le immagini sono relative a contesti estemporanei. Immaginiamo per esempio una foto dell’interno di un appartamento. Che analisi OSINT possiamo farci?