Multimodal
À mesure que les modèles d'IA générative évoluent au-delà des domaines basés sur le texte, de nouvelles techniques de suggestion émergent. Ces techniques de suggestion multimodale ne sont souvent pas simplement des applications des techniques de suggestion textuelle, mais des idées entièrement nouvelles rendues possibles par différentes modalités. Nous étendons maintenant notre taxonomie textuelle pour inclure à la fois des analogues multimodaux des techniques de suggestion textuelle et des techniques multimodales complètement nouvelles.
3.2.1 Suggestion d'Images
La modalité image englobe des données telles que des photographies, dessins ou même des captures d'écran de texte (Gong et al., 2023). La suggestion d'images peut faire référence à des suggestions qui contiennent des images ou qui sont utilisées pour générer des images. Les tâches courantes incluent la génération d'images (Ding et al., 2021 ; Hinz et al., 2022 ; Tao et al., 2022 ; Li et al., 2019a, b ; Rombach et al., 2022), la génération de légendes (Li et al., 2020), la classification d'images (Khalil et al., 2023) et l'édition d'images (Crowson et al., 2022 ; Kwon et Ye, 2022 ; Bar-Tal et al., 2022 ; Hertz et al., 2022). Nous décrivons ci-dessous diverses techniques de suggestion d'images utilisées pour ces applications.
-
Modificateurs de Suggestions
Ce sont simplement des mots ajoutés à une suggestion pour modifier l'image résultante (Oppenlaender, 2023). Des composants comme le support (par exemple, "sur toile") ou l'éclairage (par exemple, "une scène bien éclairée") sont souvent utilisés. -
Suggestion Négative
Permet aux utilisateurs de pondérer numériquement certains termes dans la suggestion afin que le modèle les considère plus ou moins fortement que d'autres. Par exemple, en attribuant un poids négatif aux termes "mauvaises mains" et "doigts supplémentaires", les modèles peuvent être plus susceptibles de générer des mains anatomiquement correctes (Schulhoff, 2022).
3.2.1.1 Apprentissage Contextuel Multimodal
Le succès de l'ACI (Apprentissage Contextuel In-Context Learning) dans les paramètres textuels a suscité des recherches sur l'ACI multimodal (Wang et al., 2023k ; Dong et al., 2023).
-
Suggestion d'Images Appariées
Montre au modèle deux images : une avant et une après une transformation donnée. Ensuite, présentez au modèle une nouvelle image pour laquelle il effectuera la conversion démontrée. Cela peut être fait soit avec des instructions textuelles (Wang et al., 2023k), soit sans elles (Liu et al., 2023e). -
Suggestion Image-en-Texte
Hakimov et Schlangen (2023) génèrent une description textuelle d'une image. Cela permet une inclusion facile de l'image (ou de plusieurs images) dans une suggestion textuelle.
3.2.1.2 Chaîne de Pensée Multimodale
La CoT (Chaîne de Pensée) a été étendue au domaine des images de plusieurs manières (Zhang et al., 2023d ; Huang et al., 2023c ; Zheng et al., 2023b ; Yao et al., 2023c). Un exemple simple serait une suggestion contenant une image d'un problème mathématique accompagnée d'instructions textuelles "Résolvez cela étape par étape".
-
CoT à Devoirs Distincts (DDCoT)
Zheng et al. (2023b) étendent la suggestion Least-to-Most (Zhou et al., 2022a) au paramètre multimodal, créant des sous-questions, puis les résolvant et combinant les réponses en une réponse finale. -
Graph-of-Thought Multimodal
Yao et al. (2023c) étendent le Graph-of-Thought (Zhang et al., 2023d) au paramètre multimodal. GoT-Input utilise également un processus en deux étapes : raisonnement puis réponse. Lors de l'inférence, le prompt d'entrée est utilisé pour construire un graphe de pensée, qui est ensuite utilisé avec le prompt original pour générer un raisonnement répondant à la question. Lorsqu'une image est fournie avec la question, un modèle de légendage d'images est employé pour générer une description textuelle de l'image, qui est ensuite ajoutée au prompt avant la construction du graphe de pensée pour fournir un contexte visuel. -
Chaîne d'Images (CoI)
Meng et al. (2023) est une extension multimodale de la suggestion Chain-of-Thought, qui génère des images comme partie de son processus de pensée. Ils utilisent la suggestion "Pensons image par image" pour générer des SVGs, que le modèle peut ensuite utiliser pour raisonner visuellement.
3.2.2 Suggestion Audio
La suggestion a également été étendue à la modalité audio. Les expériences avec l'ACI audio ont donné des résultats mitigés, certaines modèles audio open source ayant échoué à effectuer l'ACI (Hsu et al., 2023). Cependant, d'autres résultats montrent une capacité ACI dans les modèles audio (Wang et al., 2023g ; Peng et al., 2023 ; Chang et al., 2023). La suggestion audio est actuellement à ses débuts, mais nous nous attendons à voir diverses techniques de suggestion proposées à l'avenir.
3.2.3 Suggestion Vidéo
La suggestion a également été étendue à la modalité vidéo, pour être utilisée dans la génération texte-vers-vidéo (Brooks et al., 2024 ; Lv et al., 2023 ; Liang et al., 2023 ; Girdhar et al., 2023), l'édition vidéo (Zuo et al., 2023 ; Wu et al., 2023a ; Cheng et al., 2023) et la génération vidéo-vers-texte (Yousaf et al., 2023 ; Mi et al., 2023 ; Ko et al., 2023a).
3.2.3.1 Techniques de Génération Vidéo
Lors de la suggestion d'un modèle pour générer une vidéo, divers types de prompts peuvent être utilisés en entrée, et plusieurs techniques liées aux prompts sont souvent employées pour améliorer la génération vidéo. Les techniques liées aux images, telles que les modificateurs de suggestion, peuvent souvent être utilisées pour la génération vidéo (Runway, 2023).
3.2.4 Suggestion de Segmentation
La suggestion peut également être utilisée pour la segmentation (par exemple, la segmentation sémantique) (Tang et al., 2023 ; Liu et al., 2023c).
3.2.5 Suggestion 3D
La suggestion peut également être utilisée dans les modalités 3D, par exemple dans la synthèse d'objets 3D (Feng et al., 2023 ; Li et al., 2023d, c ; Lin et al., 2023 ; Chen et al., 2023f ; Lorraine et al., 2023 ; Poole et al., 2022 ; Jain et al., 2022), la texturation de surfaces 3D (Liu et al., 2023g ; Yang et al., 2023b ; Le et al., 2023 ; Pajouheshgar et al., 2023) et la génération de scènes 4D (animation d'une scène 3D) (Singer et al., 2023 ; Zhao et al., 2023c), où les modalités de prompt d'entrée incluent le texte, les images, les annotations utilisateur (boîtes englobantes, points, lignes) et les objets 3D.
4 Extensions de la Suggestion
Les techniques que nous avons discutées jusqu'à présent peuvent être extrêmement complexes, impliquant de nombreuses étapes et itérations. Cependant, nous pouvons aller plus loin dans la suggestion en ajoutant l'accès à des outils externes (agents) et des algorithmes d'évaluation complexes pour juger de la validité des sorties des LLMs.