Auto-Critique
Lors de la création de systèmes d'IA générative, il peut être utile que les LLMs critiquent leurs propres sorties (Huang et al., 2022). Cela peut simplement être un jugement (par exemple, cette sortie est-elle correcte ?) ou le LLM peut être incité à fournir des commentaires qui seront ensuite utilisés pour améliorer la réponse. De nombreuses approches ont été développées pour générer et intégrer l'auto-critique.
Auto-Calibration
Kadavath et al. (2022) commence par inciter un LLM à répondre à une question. Ensuite, il construit une nouvelle suggestion qui inclut la question, la réponse du LLM et une instruction supplémentaire demandant si la réponse est correcte. Cela peut être utile pour évaluer les niveaux de confiance lors de l'utilisation des LLMs, en aidant à décider quand accepter ou réviser la réponse initiale.
Auto-Raffinement (Self-Refine)
Madaan et al. (2023) est un cadre itératif où, étant donné une réponse initiale du LLM, il incite le même LLM à fournir des commentaires sur la réponse, puis à améliorer la réponse en fonction de ces commentaires. Ce processus itératif se poursuit jusqu'à ce qu'une condition d'arrêt soit atteinte (par exemple, un nombre maximum d'étapes atteint). L'approche Auto-Raffinement a démontré des améliorations dans une gamme de tâches de raisonnement, de codage et de génération.
Chaîne de Raisonnement Inversée (Reversing Chain-of-Thought - RCoT)
Xue et al. (2023) commence par inciter les LLMs à reconstruire le problème à partir de la réponse générée. Ensuite, il génère des comparaisons détaillées entre le problème original et le problème reconstruit afin de vérifier toute incohérence. Ces incohérences sont ensuite converties en commentaires pour permettre au LLM de réviser la réponse générée.
Auto-Vérification
Weng et al. (2022) génère plusieurs solutions candidates avec la méthode Chaîne de Pensée (Chain-of-Thought - CoT). Il évalue ensuite chaque solution en masquant certaines parties de la question originale et en demandant à un LLM de les prédire en se basant sur le reste de la question et sur la solution générée. Cette méthode a montré des améliorations sur huit jeux de données de raisonnement.
Chaîne de Vérification (Chain-of-Verification - COVE)
Dhuliawala et al. (2023) utilise d'abord un LLM pour générer une réponse à une question donnée. Ensuite, il crée une liste de questions connexes qui aideront à vérifier la correction de la réponse. Chaque question est répondue par le LLM, puis toutes les informations sont fournies au LLM pour produire la réponse finale révisée. Cette méthode a montré des améliorations dans diverses tâches de questions-réponses et de génération de texte.
Raisonnement Cumulatif
Zhang et al. (2023b) génère d'abord plusieurs étapes potentielles pour répondre à la question. Ensuite, un LLM évalue ces étapes, décidant de les accepter ou de les rejeter. Enfin, il vérifie s'il est arrivé à la réponse finale. Si c'est le cas, le processus se termine ; sinon, il se répète. Cette méthode a démontré des améliorations dans les tâches de raisonnement logique et de résolution de problèmes mathématiques.
Voici un tableau récapitulatif des techniques d'Auto-Critique mentionnées précédemment, avec une description concise et des exemples pour chaque méthode :
Ce tableau offre une vue claire des différentes approches d'auto-critique, mettant en avant leur fonctionnement et illustrant chacune avec un exemple concret.