Méta-Suggestion (Meta Prompting) 

C'est le processus consistant à inciter un LLM à générer ou améliorer une suggestion ou un modèle de suggestion (Reynolds et McDonell, 2021 ; Zhou et al., 2022b ; Ye et al., 2023). Cela se fait souvent sans mécanisme de notation, en utilisant simplement un modèle simple (Figure 2.12). Cependant, d'autres travaux présentent des usages plus complexes de la méta-suggestion, incluant plusieurs itérations et mécanismes de notation (Yang et al., 2023a ; Fernando et al., 2023).

Un modèle simple de méta-suggestion.

Prompt : Améliorez la suggestion suivante : {SUGGESTION} 

 

AutoPrompt 

Shin et al. (2020b) utilise un LLM figé ainsi qu'un modèle de suggestion contenant des "jetons déclencheurs", dont les valeurs sont mises à jour via la rétropropagation lors de l'entraînement. Il s'agit d'une version de la suggestion douce (soft-prompting).

 

Ingénieur Automatique de Suggestions (Automatic Prompt Engineer - APE)

Zhou et al. (2022b) utilise un ensemble d'exemples pour générer une suggestion zéro-exemple (Zero-Shot). Il génère plusieurs suggestions possibles, les évalue, puis crée des variations des meilleures (par exemple, en utilisant le paraphrasage de suggestions). Ce processus itératif se poursuit jusqu'à atteindre certains critères souhaités.

 

Recherche de Suggestions Instructives Sans Gradient (Gradientfree Instructional Prompt Search - GrIPS)

Prasad et al. (2023) est similaire à APE, mais utilise un ensemble d'opérations plus complexes, y compris la suppression, l'ajout, l'échange et le paraphrasage, afin de créer des variations d'une suggestion initiale.

 

Optimisation de Suggestions avec Gradients Textuels (Prompt Optimization with Textual Gradients - ProTeGi)

Pryzant et al. (2023) représente une approche unique du génie des suggestions qui améliore un modèle de suggestion via un processus en plusieurs étapes. Premièrement, il passe un lot d'entrées à travers le modèle, puis transmet la sortie, la vérité terrain (ground truth) et la suggestion dans une autre suggestion qui critique la suggestion originale. Il génère de nouvelles suggestions à partir de ces critiques, puis utilise un algorithme de bandit (Gabillon et al., 2011) pour en sélectionner une. ProTeGi montre des améliorations par rapport aux méthodes comme APE et GRIPS.

 

RLPrompt

Deng et al. (2022) utilise un LLM figé avec un module non figé ajouté. Ce LLM génère des modèles de suggestion, évalue ces modèles sur un ensemble de données et met à jour le module non figé en utilisant le Soft Q-Learning (Guo et al., 2022). De manière intéressante, cette méthode sélectionne souvent un texte grammaticalement non sensé comme modèle de suggestion optimal.

 

Optimisation Discrète de Suggestions Basée sur la Politique et les Gradients de Dialogue (Dialogue-comprised Policy-gradient-based Discrete Prompt Optimization - DP2O)

Li et al. (2023b) est peut-être la technique de génie des suggestions la plus complexe, impliquant l'apprentissage par renforcement, une fonction de notation personnalisée pour les suggestions, et des conversations avec un LLM pour construire la suggestion.

Modifié le: mercredi 26 février 2025, 09:23