Oggi siamo sempre più convinti che l’intelligenza artificiale possa superarci. Eppure, anche i sistemi più avanzati e innovativi sono aggirabili con qualche semplice gioco di astuzia.

Vediamo l’intelligenza artificiale CLIP (Contrastive Language – Image Pre-training). E’ un sistema in grado di leggere testi e ordinare immagini per categoria attraverso dei neuroni multimodali (che sono stati sviluppati in base a ricerche fatte su neuroni umani). CLIP è stato sottoposto a numerosi esperimenti, ed è risultato essere un sistema molto efficiente e  preparato, a patto che testi e oggetti rimangano separati. Questo perché, se sopra una mela incolliamo un post-it con la scritta “Ipad”, CLIP identifica quell’oggetto come un Ipad. 

L’attacco tipografico

I ricercatori hanno identificato questo Bias (pregiudizio, malfunzionamento) in quello che può definirsi un “attacco tipografico“.

Quando CLIP si interfaccia ad un attacco di questo tipo, si è rilevato che il sistema effettua un’eccessiva semplificazione per identificare l’immagine. Analizza l’oggetto a un livello di astrazione molto elevato e il risultato è una risposta eccessivamente basilare.

Nei vari esperimenti effettuati per analizzare il problema, si sono trovate diverse modalità per ingannare CLIP. Ad esempio, sopra la fotografia di un cane è stato posto il simbolo del dollaro “$”, e CLIP ha identificato quell’immagine come un salvadanaio.

Nonostante questo Bias crei delle risposte paradossali e a volte divertenti, il fatto che un’intelligenza artificiale abbia dei pregiudizi intrinseci così marcati non è positivo. Gli studiosi stanno cercando delle risposte per migliorare un’intelligenza che, se continua a mantenere tali problemi, potrebbe dimostrarsi completamente inefficiente.

I grandi passi avanti della tecnologia non riescono ancora a raggiungere il livello di comprensione umana. Molti studi stanno cercando di raggiungere questa meta, senza ancora sapere se è un obiettivo realizzabile.