Génération de Pensée
La génération de pensée englobe un ensemble de techniques qui incitent le LLM à exprimer son raisonnement tout en résolvant un problème (Zhang et al., 2023c).
Suggestion par Chaîne de Pensée (Chain-of-Thought - CoT)
Wei et al. (2022b) utilise la suggestion par quelques exemples (few-shot prompting) pour encourager le LLM à exprimer son processus de réflexion avant de donner sa réponse finale. Cette technique est parfois appelée Chaînes de Pensée (Tutunov et al., 2023; Besta et al., 2024; Chen et al., 2023d). Elle a démontré une amélioration significative des performances du LLM dans les tâches mathématiques et de raisonnement. Dans Wei et al. (2022b), la suggestion inclut un exemple comportant une question, un chemin de raisonnement et la réponse correcte (Figure 2.8).
Exemple :
Q : Jack a deux paniers, chacun contenant trois balles. Combien de balles Jack a-t-il au total ?
A : Un panier contient 3 balles, donc deux paniers contiennent 3 * 2 = 6 balles.
Q : {QUESTION} A :
Figure 2.8 : Une suggestion CoT en un seul exemple.
Zero-Shot-CoT
La version la plus simple de CoT ne contient aucun exemple. Elle consiste à ajouter une phrase incitant à la réflexion, comme "Pensons étape par étape" (Kojima et al., 2022), à la suggestion. D'autres phrases suggérées incluent "D'abord, pensons à cela de manière logique" (Kojima et al., 2022). Zhou et al. (2022b) utilisent les LLMs pour générer "Traçons cela étape par étape pour être sûrs d'avoir la bonne réponse". Yang et al. (2023a) cherchent un induiseur de pensée optimal. Les approches Zero-Shot-CoT sont attractives car elles n'exigent pas d'exemples et sont généralement indépendantes des tâches.
Suggestion Régressive (Step-Back Prompting)
Zheng et al. (2023c) est une modification de CoT où le LLM est d'abord interrogé sur une question générique et de haut niveau concernant les concepts ou faits pertinents avant d'entrer dans le raisonnement. Cette approche a considérablement amélioré les performances sur plusieurs benchmarks de raisonnement pour PaLM-2L et GPT-4.
Suggestion Analogique (Analogical Prompting)
Yasunaga et al. (2023) est similaire à SG-ICL et génère automatiquement des exemples incluant des chaînes de pensée. Elle a montré des améliorations dans les tâches de raisonnement mathématique et de génération de code.
Suggestion par Fil de Pensée (Thread-of-Thought - ThoT)
Zhou et al. (2023) consiste en un induiseur de pensée amélioré pour le raisonnement CoT. Au lieu de "Pensons étape par étape", il utilise "Guidez-moi à travers ce contexte en parties gérables, étape par étape, en résumant et analysant au fur et à mesure". Cet induiseur fonctionne bien dans les contextes de questions-réponses et de récupération, surtout lorsqu'il s'agit de contextes larges et complexes.
Suggestion Tabulaire par Chaîne de Pensée (Tabular Chain-of-Thought - Tab-CoT)
Jin et Lu (2023) consiste en une suggestion CoT zéro-exemple qui fait sortir le raisonnement du LLM sous forme de tableau Markdown. Ce design tabulaire permet au LLM d'améliorer la structure et ainsi le raisonnement de sa sortie.
Few-Shot CoT
Cet ensemble de techniques présente au LLM plusieurs exemples incluant des chaînes de pensée. Cela peut améliorer considérablement les performances. Cette technique est parfois appelée Manual-CoT (Zhang et al., 2022b) ou Golden CoT (Del et Fishel, 2023).
Suggestion Contrastive CoT
Chia et al. (2023) ajoutent des exemples avec des explications incorrectes et correctes à la suggestion CoT pour montrer au LLM comment ne pas raisonner. Cette méthode a montré des améliorations significatives dans des domaines comme le raisonnement arithmétique et les Q/R factuelles.
Suggestion CoT Guidée par l'Incertitude (Uncertainty-Routed CoT Prompting)
Google (2023) échantillonne plusieurs chemins de raisonnement CoT, puis sélectionne la majorité si elle dépasse un certain seuil (calculé à partir des données de validation). Si ce n'est pas le cas, il échantillonne de manière gloutonne et sélectionne cette réponse. Cette méthode montre des améliorations sur le benchmark MMLU pour les modèles GPT-4 et Gemini Ultra.
Suggestion Basée sur la Complexité (Complexity-based Prompting)
Fu et al. (2023b) implique deux modifications majeures à CoT. Premièrement, il sélectionne des exemples complexes pour l'annotation et leur inclusion dans la suggestion, en se basant sur des facteurs comme la longueur de la question ou les étapes de raisonnement nécessaires. Deuxièmement, lors de l'inférence, il échantillonne plusieurs chaînes de raisonnement (réponses) et utilise un vote majoritaire parmi les chaînes dépassant un certain seuil de longueur, sous l'hypothèse que des raisonnements plus longs indiquent une meilleure qualité de réponse. Cette technique a montré des améliorations sur trois jeux de données de raisonnement mathématique.
Suggestion Active (Active Prompting)
Diao et al. (2023) commence avec quelques questions/exemples d'entraînement, demande au LLM de les résoudre, puis calcule l'incertitude (désaccord dans ce cas) et demande aux annotateurs humains de réécrire les exemples ayant la plus grande incertitude.
Suggestion par Mémoire de Pensée (Memory-of-Thought Prompting)
Li et Qiu (2023b) exploitent des exemples d'entraînement non étiquetés pour construire des suggestions Few-Shot CoT au moment du test. Avant le test, ils effectuent une inférence sur les exemples d'entraînement non étiquetés avec CoT. Au moment du test, ils recherchent des instances similaires à l'échantillon de test. Cette technique a montré des améliorations substantielles dans des benchmarks comme l'arithmétique, le raisonnement communautaire et les Q/R factuelles.
Suggestion CoT Automatique (Automatic Chain-of-Thought - Auto-CoT)
Zhang et al. (2022b) utilisent la suggestion zéro-exemple de Wei et al. (2022b) pour générer automatiquement des chaînes de pensée. Ces dernières sont ensuite utilisées pour construire une suggestion Few-Shot CoT pour un échantillon de test.