Résumé de section

    • Avec la croissance de l'utilisation des suggestions, le paysage des menaces qui l'entourent s'étend également. Ces menaces sont extrêmement variées et bien plus difficiles à combattre par rapport aux menaces de sécurité non neuronales ou antérieures à l'utilisation des suggestions. Nous fournissons une discussion sur le paysage des menaces liées aux suggestions ainsi qu'un aperçu limité des défenses existantes. Nous commençons par décrire le piratage des suggestions (prompt hacking), c'est-à-dire les moyens par lesquels les suggestions peuvent être utilisées pour exploiter les LLMs, puis nous décrivons les dangers émergents issus de cela, et enfin nous présentons des défenses potentielles.

    • Maintenant que nous avons mené une revue systématique des techniques de suggestion, nous allons analyser les performances empiriques des différentes techniques de deux manières : via une évaluation formelle sur un benchmark et en illustrant en détail le processus d'ingénierie des suggestions sur un problème réel complexe.