Una ricerca promossa da un team di ricercatori provenienti da Icaro Lab, Sapienza Università di Roma, Scuola Superiore Sant’Anna e VU Amsterdam, dimostra che la semplice riformulazione in forma poetica o narrativa di richieste potenzialmente pericolose riesce ad aggirare in maniera statisticamente significativa i controlli di sicurezza dei modelli di AI.
A fronte di un’analisi su 25 modelli di frontiera, dallo studio si evince che la somministrazione di richieste nella forma stilistica della poesia risulta, nell’evadere i controlli, in media il 62% più efficace rispetto a un’interrogazione con linguaggio standard. Inoltre, risultano proprio gli LLM più diffusi ad essere meno capaci di attivare i sistemi di protezione di fronte a prompt, apparentemente innocui, formulati con un registro lirico.
Su un campione più ampio, composto da 1200 richieste tratte dal benchmark MLCommons, i contenuti non sicuri superano le barriere di sicurezza dall’8% delle volte al 43%, con alcuni modelli che falliscono nove volte su dieci nell’intercettamento di richieste dannose.