Uno studio dimostra come la formulazione del prompt incida sui controlli di sicurezza dei modelli AI

Notizie

Una ricerca promossa da un team di ricercatori provenienti da Icaro Lab, Sapienza Università di Roma, Scuola Superiore Sant’Anna e VU Amsterdam, dimostra che la semplice riformulazione in forma poetica o narrativa di richieste potenzialmente pericolose riesce ad aggirare in maniera statisticamente significativa i controlli di sicurezza dei modelli di AI.

A fronte di un’analisi su 25 modelli di frontiera, dallo studio si evince che la somministrazione di richieste nella forma stilistica della poesia risulta, nell’evadere i controlli, in media il 62% più efficace rispetto a un’interrogazione con linguaggio standard. Inoltre, risultano proprio gli LLM più diffusi ad essere meno capaci di attivare i sistemi di protezione di fronte a prompt, apparentemente innocui, formulati con un registro lirico.

Su un campione più ampio, composto da 1200 richieste tratte dal benchmark MLCommons, i contenuti non sicuri superano le barriere di sicurezza dall’8% delle volte al 43%, con alcuni modelli che falliscono nove volte su dieci nell’intercettamento di richieste dannose.