Questo notevole aumento della capacità ha aperto le porte a potenziali manipolazioni da parte di malintenzionati, come sottolineato dal team di ricerca di Anthropic, che ha riscontrato come i modelli di nuova generazione siano particolarmente vulnerabili.
Recenti ricerche condotte dal team di Anthropic hanno portato alla luce una nuova preoccupante tecnica di jailbreaking applicata ai modelli di linguaggio di grandi dimensioni (LLM), potenzialmente sfruttabile per indurli a fornire informazioni su come costruire dispositivi esplosivi.