Décisions de Conception pour le Prompting avec Quelques Exemples
Sélectionner des exemples (exemplars) pour un prompt est une tâche complexe. Les performances du modèle dépendent fortement de plusieurs facteurs liés aux exemples choisis (Dong et al., 2023), d’autant plus que la fenêtre de contexte des modèles linguistiques (LLMs) ne permet de traiter qu’un nombre limité d’exemples. Nous mettons en avant six décisions de conception majeures, incluant la sélection et l’ordre des exemples, qui influencent de manière critique la qualité des sorties (Zhao et al., 2021a ; Lu et al., 2021 ; Ye et Durrett, 2023) (Figure 2.3).
Quantité d’Exemples
Augmenter le nombre d’exemples dans un prompt améliore généralement les performances des modèles, en particulier pour les modèles de grande taille (Brown et al., 2020). Cependant, les bénéfices peuvent diminuer au-delà de 20 exemples (Liu et al., 2021). Pour les modèles à longue fenêtre de contexte, l’ajout d’exemples supplémentaires continue d’améliorer les performances, bien que l’efficacité varie selon la tâche et le modèle (Agarwal et al., 2024 ; Bertsch et al., 2024 ; Jiang et al., 2024).
Ordre des Exemples
L’ordre des exemples a un impact sur le comportement du modèle (Lu et al., 2021 ; Kumar et Talukdar, 2021 ; Liu et al., 2021 ; Rubin et al., 2022). Pour certaines tâches, l’ordre peut entraîner des variations importantes de précision, allant de moins de 50 % à plus de 90 % (Lu et al., 2021).
Distribution des Labels des Exemples
Comme dans l’apprentissage supervisé classique, la distribution des labels des exemples influence les résultats. Par exemple, inclure 10 exemples d’une classe et seulement 2 d’une autre peut biaiser le modèle en faveur de la première classe.
Qualité des Labels des Exemples
Bien que l’utilisation de plusieurs exemples soit généralement bénéfique, la nécessité d’utiliser des exemples strictement valides reste débattue. Certaines études (Min et al., 2022) suggèrent que la précision des labels est parfois sans importance : des exemples avec des labels incorrects peuvent ne pas affecter négativement les performances. Cependant, dans certains contextes, cela peut avoir un impact significatif (Yoo et al., 2022). Les grands modèles semblent mieux gérer les labels incorrects ou non pertinents (Wei et al., 2023c).
Ce facteur est particulièrement important si vous générez automatiquement des prompts à partir de grands ensembles de données pouvant contenir des erreurs. Il peut être nécessaire d'étudier l’effet de la qualité des labels sur vos résultats.
Format des Exemples
La mise en forme des exemples influence également les performances. L’un des formats les plus courants est :
Q : {entrée}, R : {label}
Cependant, le format optimal peut varier selon les tâches. Il peut être utile d’expérimenter avec différents formats pour identifier celui qui donne les meilleurs résultats. Certaines preuves indiquent que les formats fréquemment rencontrés dans les données d’entraînement mènent à de meilleures performances (Jiang et al., 2020).
Similarité des Exemples
Choisir des exemples similaires à l’échantillon de test est généralement bénéfique pour les performances (Liu et al., 2021 ; Min et al., 2022). Cependant, dans certains cas, inclure des exemples plus diversifiés peut aussi améliorer les performances (Su et al., 2022 ; Min et al., 2022).
Sélection des Instructions
Les instructions sont essentielles pour guider les LLMs dans des prompts sans exemple (zero-shot) (Wei et al., 2022a), mais leur utilité dans des prompts avec quelques exemples reste moins claire. Ajith et al. (2024) montrent que des instructions génériques et indépendantes des tâches (par exemple, « Complétez la tâche suivante : ») améliorent la précision pour des tâches de classification et de question-réponse, comparativement à des instructions spécifiques (par exemple, « Quelle est la réponse à cette question ? »). Cela suggère que les capacités de suivi des instructions peuvent être obtenues uniquement avec des exemples.
Bien qu’elles n’améliorent pas forcément la justesse des réponses, les instructions dans les prompts avec exemples peuvent guider des attributs auxiliaires de sortie, tels que le style d’écriture (Roy et al., 2023).