Auto-Calibration 

Kadavath et al. (2022) commence par inciter un LLM à répondre à une question. Ensuite, il construit une nouvelle suggestion qui inclut la question, la réponse du LLM et une instruction supplémentaire demandant si la réponse est correcte. Cela peut être utile pour évaluer les niveaux de confiance lors de l'utilisation des LLMs, en aidant à décider quand accepter ou réviser la réponse initiale.

 

Auto-Raffinement (Self-Refine)

Madaan et al. (2023) est un cadre itératif où, étant donné une réponse initiale du LLM, il incite le même LLM à fournir des commentaires sur la réponse, puis à améliorer la réponse en fonction de ces commentaires. Ce processus itératif se poursuit jusqu'à ce qu'une condition d'arrêt soit atteinte (par exemple, un nombre maximum d'étapes atteint). L'approche Auto-Raffinement a démontré des améliorations dans une gamme de tâches de raisonnement, de codage et de génération.

 

Chaîne de Raisonnement Inversée (Reversing Chain-of-Thought - RCoT)

Xue et al. (2023) commence par inciter les LLMs à reconstruire le problème à partir de la réponse générée. Ensuite, il génère des comparaisons détaillées entre le problème original et le problème reconstruit afin de vérifier toute incohérence. Ces incohérences sont ensuite converties en commentaires pour permettre au LLM de réviser la réponse générée.

 

Auto-Vérification

Weng et al. (2022) génère plusieurs solutions candidates avec la méthode Chaîne de Pensée (Chain-of-Thought - CoT). Il évalue ensuite chaque solution en masquant certaines parties de la question originale et en demandant à un LLM de les prédire en se basant sur le reste de la question et sur la solution générée. Cette méthode a montré des améliorations sur huit jeux de données de raisonnement.

 

Chaîne de Vérification (Chain-of-Verification - COVE)

Dhuliawala et al. (2023) utilise d'abord un LLM pour générer une réponse à une question donnée. Ensuite, il crée une liste de questions connexes qui aideront à vérifier la correction de la réponse. Chaque question est répondue par le LLM, puis toutes les informations sont fournies au LLM pour produire la réponse finale révisée. Cette méthode a montré des améliorations dans diverses tâches de questions-réponses et de génération de texte.

 

Raisonnement Cumulatif

Zhang et al. (2023b) génère d'abord plusieurs étapes potentielles pour répondre à la question. Ensuite, un LLM évalue ces étapes, décidant de les accepter ou de les rejeter. Enfin, il vérifie s'il est arrivé à la réponse finale. Si c'est le cas, le processus se termine ; sinon, il se répète. Cette méthode a démontré des améliorations dans les tâches de raisonnement logique et de résolution de problèmes mathématiques.

Voici un tableau récapitulatif des techniques d'Auto-Critique mentionnées précédemment, avec une description concise et des exemples pour chaque méthode :

 
Auto-Calibration
Le modèle évalue sa propre réponse en indiquant si elle est correcte.
<ul><li>Question : "Quelle est la capitale de la France ?"</li><li>Réponse : "Paris".</li><li>Instruction : "Est-ce que cette réponse est correcte ?" → Oui.</li></ul>
Auto-Raffinement (Self-Refine)
Itération où le modèle critique et améliore progressivement sa réponse.
<ul><li>Réponse initiale : "La somme de 3 + 4 est 8".</li><li>Commentaire : "Ceci semble incorrect."</li><li>Nouvelle réponse : "La somme de 3 + 4 est 7".</li></ul>
Chaîne de Raisonnement Inversée (RCoT)
Reconstruction du problème à partir de la réponse pour détecter des incohérences.
<ul><li>Réponse : "La solution est x = 5".</li><li>Reconstruction : "Le problème initial était x + 2 = 7".</li><li>Incohérence corrigée si nécessaire.</li></ul>
Auto-Vérification
Génération de plusieurs solutions candidates, puis vérification par masquage partiel de la question.
<ul><li>Solution 1 : "5 + 3 = 8".</li><li>Masquage : "? + 3 = 8".</li><li>Vérification : Le modèle prédit "5", confirmant la solution.</li></ul>
Chaîne de Vérification (COVE)
Création de questions connexes pour valider la correction de la réponse principale.
<ul><li>Réponse : "La capitale de la France est Paris".</li><li>Questions connexes : "Quelle est la langue officielle de la France ?" → Français.</li></ul>
Raisonnement Cumulatif
Évaluation progressive des étapes intermédiaires jusqu'à la solution finale.
<ul><li>Étape 1 : "x + 2 = 7".</li><li>Étape 2 : "x = 7 - 2".</li><li>Étape 3 : "x = 5".</li><li>Vérification finale : La solution est correcte.</li></ul>

Ce tableau offre une vue claire des différentes approches d'auto-critique, mettant en avant leur fonctionnement et illustrant chacune avec un exemple concret.

Última modificación: miércoles, 26 de febrero de 2025, 09:23