OpenAI, “Video generation models as world simulators,” OpenAI, Tech. Rep., 2024.
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.✅
A. Radford, K. Narasimhan, T. Salimans, I. Sutskever et al., “Improving language understanding by generative pre-training,” 2018.✅
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019.✅
T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell et al., “Language models are few-shot learners,” Advances in Neural Information Processing Systems, vol. 33, pp. 1877–1901, 2020.✅
J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., “GPT-4 technical report,” arXiv preprint arXiv:2303.08774, 2023.✅
OpenAI, “ChatGPT: A language model for conversational AI,” OpenAI, Tech. Rep., 2023.
Y. Li, C. Wang, and J. Jia, “LLaMA-VID: An image is worth 2 tokens in large language models,” arXiv preprint arXiv:2311.17043, 2023.✅
P. Gao, J. Han, R. Zhang, Z. Lin, S. Geng, A. Zhou, W. Zhang, P. Lu, C. He, X. Yue et al., “LLaMA-Adapter V2: Parameter-efficient visual instruction model,” arXiv preprint arXiv:2304.15010, 2023.✅
R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-resolution image synthesis with latent diffusion models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10684–10695.✅
A. Nichol, P. Dhariwal, A. Ramesh, P. Shyam, P. Mishkin, B. McGrew, I. Sutskever, and M. Chen, “GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models,” arXiv preprint arXiv:2112.10741, 2021.✅
A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical text-conditional image generation with CLIP latents,” arXiv preprint arXiv:2204.06125, vol. 1, no. 2, p. 3, 2022.✅
C. Saharia, W. Chan, S. Saxena, L. Li, J. Whang, E. L. Denton, K. Ghasemipour, R. Gontijo Lopes, B. Karagol Ayan, T. Salimans et al., “Photorealistic text-to-image diffusion models with deep language understanding,” Advances in Neural Information Processing Systems, vol. 35, pp. 36479–36494, 2022.✅
Y. He, T. Yang, Y. Zhang, Y. Shan, and Q. Chen, “Latent video diffusion models for high-fidelity long video generation,” arXiv preprint arXiv:2211.13221, 2022.✅
D. Zhou, W. Wang, H. Yan, W. Lv, Y. Zhu, and J. Feng, “MagicVideo: Efficient video generation with latent diffusion models,” arXiv preprint arXiv✅
U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni et al., “Make-a-video: Text-to-video generation without text-video data,” arXiv preprint arXiv:2209.14792, 2022.✅
J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet et al., “Imagen video: High definition video generation with diffusion models,” arXiv preprint arXiv:2210.02303, 2022.✅
R. Villegas, M. Babaeizadeh, P.-J. Kindermans, H. Moraldo, H. Zhang, M. T. Saffar, S. Castro, J. Kunze, and D. Erhan, “Phenaki: Variable length video generation from open domain textual descriptions,” in International Conference on Learning Representations, 2022.✅
H. Chen, M. Xia, Y. He, Y. Zhang, X. Cun, S. Yang, J. Xing, Y. Liu, Q. Chen, X. Wang et al., “VideoCrafter1: Open diffusion models for high-quality video generation,” arXiv preprint arXiv:2310.19512, 2023.✅
Y. Guo, C. Yang, A. Rao, Y. Wang, Y. Qiao, D. Lin, and B. Dai, “AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning,” arXiv preprint arXiv:2307.04725, 2023.✅
O. Bar-Tal, H. Chefer, O. Tov, C. Herrmann, R. Paiss, S. Zada, A. Ephrat, J. Hur, Y. Li, T. Michaeli et al., “Lumiere: A space-time diffusion model for video generation,” arXiv preprint arXiv:2401.12945, 2024.✅
R. Girdhar, M. Singh, A. Brown, Q. Duval, S. Azadi, S. S. Rambhatla, A. Shah, X. Yin, D. Parikh, and I. Misra, “Emu Video: Factorizing text-to-video generation by explicit image conditioning,” arXiv preprint arXiv:2311.10709, 2023.✅
A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International Conference on Machine Learning. PMLR, 2021, pp. 8748–8763.✅
A. Sanghi, H. Chu, J. G. Lambourne, Y. Wang, C.-Y. Cheng, M. Fumero, and K. R. Malekshan, “Clip-forge: Towards zero-shot text-to-shape generation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18603–18613.✅
N. Mohammad Khalid, T. Xie, E. Belilovsky, and T. Popa, “Clip-Mesh: Generating textured meshes from text using pretrained image-text models,” in SIGGRAPH Asia 2022 Conference Papers, 2022, pp. 1–8.✅
O. Michel, R. Bar-On, R. Liu, S. Benaim, and R. Hanocka, “Text2Mesh: Text-driven neural stylization for meshes,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 13492–13502.✅
C. Wang, R. Jiang, M. Chai, M. He, D. Chen, and J. Liao, “NeRF-Art: Text-driven neural radiance fields stylization,” IEEE Transactions on Visualization and Computer Graphics, 2023.✅
B. Kerbl, G. Kopanas, T. Leimkühler, and G. Drett28. B. Kerbl, G. Kopanas, T. Leimkühler, and G. Drettakis, “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” ACM Transactions on Graphics, vol. 42, no. 4, July 2023. [Online]. Available: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/✅
T. Yi, J. Fang, J. Wang, G. Wu, L. Xie, X. Zhang, W. Liu, Q. Tian, and X. Wang, “GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models,” arXiv preprint arXiv:2310.08529, 2023.✅
J. Tang, J. Ren, H. Zhou, Z. Liu, and G. Zeng, “DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation,” arXiv preprint arXiv:2309.16653, 2023.✅
L. Höllein, A. Cao, A. Owens, J. Johnson, and M. Nießner, “Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2023, pp. 7909–7920.✅
Y. Liang, X. Yang, J. Lin, H. Li, X. Xu, and Y. Chen, “LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching,” arXiv preprint arXiv:2311.11284, 2023.✅
X. Yu, Y.-C. Guo, Y. Li, D. Liang, S.-H. Zhang, and X. Qi, “Text-to-3D with Classifier Score Distillation,” arXiv preprint arXiv:2310.19415, 2023.✅
W. Li, R. Chen, X. Chen, and P. Tan, “SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D,” arXiv preprint arXiv:2310.02596, 2023.✅
Z. Wang, C. Lu, Y. Wang, F. Bao, C. Li, H. Su, and J. Zhu, “ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation,” arXiv preprint arXiv:2305.16213, 2023.✅
J. Lorraine, K. Xie, X. Zeng, C.-H. Lin, T. Takikawa, N. Sharp, T.-Y. Lin, M.-Y. Liu, S. Fidler, and J. Lucas, “ATT3D: Amortized Text-to-3D Object Synthesis,” in International Conference on Computer Vision ICCV, 2023.✅
J. Xu, X. Wang, W. Cheng, Y.-P. Cao, Y. Shan, X. Qie, and S. Gao, “Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models,” arXiv preprint arXiv:2212.14704, 2023.✅
J. Zhu and P. Zhuang, “HiFA: High-Fidelity Text-to-3D with Advanced Diffusion Guidance,” arXiv preprint arXiv:2305.18766, 2023.✅
R. Chen, Y. Chen, N. Jiao, and K. Jia, “Fantasia3D: Disentangling Geometry and Appearance for High-Quality Text-to-3D Content Creation,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2023.✅
C. Tsalicoglou, F. Manhardt, A. Tonioni, M. Niemeyer, and F. Tombari, “TextMesh: Generation of Realistic 3D Meshes from Text Prompts,” arXiv preprint arXiv:2304.12439, 2023.✅
B. Poole, A. Jain, J. T. Barron, and B. Mildenhall, “DreamFusion: Text-to-3D using 2D Diffusion,” arXiv preprint arXiv:2209.14988, 2022.✅
C. -H. Lin, J. Gao, L. Tang, T. Takikawa, X. Zeng, X. Huang, K. Kreis, S. Fidler, M.-Y. Liu, and T.-Y. Lin, “Magic3D: High-Resolution Text-to-3D Content Creation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 300–309.✅
J. Seo, W. Jang, M.-S. Kwak, J. Ko, H. Kim, J. Kim, J.-H. Kim, J. Lee, and S. Kim, “Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation,” arXiv preprint arXiv:2303.07937, 2023.✅
H. Liu, Z. Chen, Y. Yuan, X. Mei, X. Liu, D. Mandic, W. Wang, and M. D. Plumbley, “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models,” arXiv preprint arXiv:2301.12503, 2023.✅
H. Liu, Q. Tian, Y. Yuan, X. Liu, X. Mei, Q. Kong, Y. Wang, W. Wang, Y. Wang, and M. D. Plumbley, “AudioLDM 2: Learning Holistic Audio Generation with Self-Supervised Pretraining,” arXiv preprint arXiv:2308.05734, 2023.✅
F. Kreuk, G. Synnaeve, A. Polyak, U. Singer, A. Défossez, J. Copet, D. Parikh, Y. Taigman, and Y. Adi, “AudioGen: Textually Guided Audio Generation,” arXiv preprint arXiv:2209.15352, 2022.✅
A. Agostinelli, T. I. Denk, Z. Borsos, J. Engel, M. Verzetti, A. Caillon, Q. Huang, A. Jansen, A. Roberts, M. Tagliasacchi et al., “MusicLM: Generating Music from Text,” arXiv preprint arXiv:2301.11325, 2023.✅
J. Copet, F. Kreuk, I. Gat, T. Remez, D. Kant, G. Synnaeve, Y. Adi, and A. Défossez, “Simple and Controllable Music Generation,” Advances in Neural Information Processing Systems, vol. 36, 2024.✅
S. Forsgren and H. Martiros, “Riffusion-stable diffusion for real-time music generation, 2022,” URL https://riffusion.com/about, vol. 6, 2022.✅
X. Tan, J. Chen, H. Liu, J. Cong, C. Zhang, Y. Liu, X. Wang, Y. Leng, Y. Yi, L. He et al., “NaturalSpeech: End-to-End Text-to-Speech Synthesis with Human-Level Quality,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.✅
K. Shen, Z. Ju, X. Tan, Y. Liu, Y. Leng, L. He, T. Qin, S. Zhao, and J. Bian, “NaturalSpeech 2: Latent Diffusion Models Are Natural and Zero-Shot Speech and Singing Synthesizers,” arXiv preprint arXiv:2304.09116, 2023.✅
Z. Ju, Y. Wang, K. Shen, X. Tan, D. Xin, D. Yang, Y. Liu, Y. Leng, K. Song, S. Tang et al., “NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models,” arXiv preprint arXiv:2403.03100, 2024.✅
C. Wang, S. Chen, Y. Wu, Z. Zhang, L. Zhou, S. Liu, Z. Chen, Y. Liu, H. Wang, J. Li et al., “Neural Codec Language Models Are Zero-Shot Text to Speech Synthesizers,” arXiv preprint arXiv:2301.02111, 2023.✅
Z. Jiang, J. Liu, Y. Ren, J. He, C. Zhang, Z. Ye, P. Wei, C. Wang, X. Yin, Z. Ma et al., “Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts,” arX55. Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech,” arXiv preprint arXiv:2006.04558, 2020.✅
Y. Ge, Y. Ge, Z. Zeng, X. Wang, and Y. Shan, “Planting a Seed of Vision in Large Language Model,” arXiv preprint arXiv:2307.08041, 2023.✅
L. Zeqiang, Z. Xizhou, D. Jifeng, Q. Yu, and W. Wenhai, “Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models,” arXiv preprint arXiv:2310.07653, 2023.✅
Z. Tang, Z. Yang, M. Khademi, Y. Liu, C. Zhu, and M. Bansal, “CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation,” arXiv preprint arXiv:2311.18775, 2023.✅
Y. Ge, S. Zhao, Z. Zeng, Y. Ge, C. Li, X. Wang, and Y. Shan, “Making LLaMA See and Draw with SEED Tokenizer,” arXiv preprint arXiv:2310.01218, 2023.✅
Q. Sun, Y. Cui, X. Zhang, F. Zhang, Q. Yu, Z. Luo, Y. Wang, Y. Rao, J. Liu, T. Huang et al., “Generative Multimodal Models Are In-Context Learners,” arXiv preprint arXiv:2312.13286, 2023.✅
X. Zhao, B. Liu, Q. Liu, G. Shi, and X.-M. Wu, “Making Multimodal Generation Easier: When Diffusion Models Meet LLMs,” arXiv preprint arXiv:2310.08949, 2023.✅
J. Chen, Y. Huang, T. Lv, L. Cui, Q. Chen, and F. Wei, “TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering,” arXiv preprint arXiv:2311.16465, 2023.✅
L. Lian, B. Li, A. Yala, and T. Darrell, “LLM-Grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models,” arXiv preprint arXiv:2305.13655, 2023.✅
W. Feng, W. Zhu, T.-j. Fu, V. Jampani, A. Akula, X. He, S. Basu, X. E. Wang, and W. Y. Wang, “LayoutGPT: Compositional Visual Planning and Generation with Large Language Models,” arXiv preprint arXiv:2305.15393, 2023.✅
T. Zhang, Y. Zhang, V. Vineet, N. Joshi, and X. Wang, “Controllable Text-to-Image Generation with GPT-4,” arXiv preprint arXiv:2305.18583, 2023.✅
L. Qu, S. Wu, H. Fei, L. Nie, and T.-S. Chua, “LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation,” in Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 643–654.✅
Y. Li, H. Liu, Q. Wu, F. Mu, J. Yang, J. Gao, C. Li, and Y. J. Lee, “GLIGEN: Open-Set Grounded Text-to-Image Generation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 22511–22521.✅
J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo et al., “Improving Image Generation with Better Captions,” Computer Science. https://cdn.openai.com/papers/dall-e-3.pdf, 2023.✅
引言
内容概述
近年来,随着大型语言模型(LLMs)的快速发展,越来越多的研究开始关注将LLMs与多模态学习相结合。以往的多模态大语言模型(MLLMs)研究主要集中在理解上,而本综述将详细探讨多模态生成领域,涵盖图像、视频、3D和音频等多个领域,并重点介绍这些领域中的里程碑式工作。
研究范围
本综述探讨了包括图像、视频、3D模型和音频在内的多种模态的生成。多模态生成包括不同模态的单独生成以及多模态的联合生成。我们不会深入讨论纯文本生成,因为已有许多专门针对该领域进展的综述。我们的主要关注点是近年来出现的大型语言模型如何在生成其他视觉和音频模态方面提供帮助,特别是在开放领域生成中的应用。
相关研究
单模态生成综述
许多综述文章专注于单一模态的生成,例如图像生成[115]、视频生成[116]、3D生成[117]和音频生成[118]。这些研究主要采用预训练的CLIP或T5等语言编码器进行开放领域的文本指导生成。随着LLMs的出现,越来越多的生成工作利用强大的LLMs来增强每种模态的生成能力。我们的工作主要讨论LLMs在各个模态生成中的作用,这是以前的综述中缺乏的。
LLMs综述
大量综述文章探讨了LLMs的各个方面。例如,[121]对基于LLMs的自主代理进行了全面审查。此外,[122]和[123]介绍了多模态LLMs,介绍了将LLMs与其他非文本模态结合的论文。这些综述既介绍了多模态理解,也介绍了多模态生成,但主要侧重于多模态理解。相比之下,我们的工作主要集中在生成方面,旨在探讨LLMs在每种模态生成过程中带来的性能和功能改进。
预备知识
生成模型
生成模型可以归纳为从先验分布中抽取潜在样本并将其转换为与目标数据分布对齐的生成样本的过程。以下是几种主要的生成模型:
多模态对齐模型
CLIP[23]是一种开创性的图像-语言对齐模型,通过对比学习同时学习图像编码器和文本编码器。它在多个下游任务中表现出色,如物体识别和视频动作识别。CLAP[131]则对齐文本和音频信息,用于文本指导的音频生成。
大型语言模型
现代大型语言模型利用Transformer架构生成上下文丰富的嵌入,这些模型在大量文本语料库上进行训练,然后针对特定任务进行微调。[137][138][139][140] 例如,GPT系列模型主要使用Transformer解码器,经过大规模多样化数据集的预训练后,能够生成高质量的文本。
多模态大型语言模型
多模态大型语言模型(MLLMs)最近开始兴起,旨在赋予LLMs理解或生成其他模态的能力。这些模型通常包含额外的预训练模态特定编码器,用于特征提取和输入投影,以及与LLM骨干对齐的多模态隐藏特征。[142][143][144][145][146]
图像生成与编辑
图像生成
使用CLIP进行文本指导的图像生成
过去,图像-文本对齐模型如CLIP[23]在文本指导的图像生成中发挥了重要作用,确保生成的图像与给定的文本提示相符。这些模型通过对齐文本编码器和图像编码器的嵌入,生成与文本描述相匹配的图像。[12][169][200][10][201][202]
使用LLMs进行文本指导的图像生成
随着MLLMs的发展,LLMs在视觉内容处理中的应用越来越广泛。MLLMs提供了统一的界面,用于理解和生成文本及视觉信息,增强了生成过程的交互性和可控性。例如,CM3Leon是一种自回归MLLM,能够同时生成文本和图像输出[156]。DreamLLM是第一个能够生成自由形式交错内容的MLLM,支持多轮对话,并且在图像描述和视频问答任务中表现出色[151]。这些模型通过结合视觉和语言信息,显著提高了图像生成的质量和用户体验。
图像编辑
使用CLIP/T5进行图像编辑
CLIP模型支持基于语言的图像编辑,例如SDEdit通过用户输入的描边、草图或掩码生成逼真的图像,并通过文本指令编辑现有图像。[226] DiffusionCLIP[227]和Imagic[231]等方法通过调整预训练的扩散模型来编辑目标图像,展示了出色的编辑能力。
使用LLMs进行图像编辑
LLMs提供了强大的基于对话或交互的图像编辑能力。例如,InstructPix2pix通过构建数据元组(原始图像、提示、目标图像),训练模型根据编辑提示编辑图像[242]。CHATEDIT则通过对话进行面部图像编辑,分解为用户编辑请求跟踪、图像编辑和响应生成子任务[243]。这些方法通过结合LLMs强大的文本理解和生成能力,显著提高了图像编辑的精确度和灵活性。
视频生成与编辑
视频生成
使用CLIP进行文本到视频生成
基于扩散模型和变压器模型的文本到视频生成方法已经取得了显著进展。扩散模型因其训练的简便性成为主流,其中包括像素级和潜在级视频扩散模型。[14][15][16][17] 这些模型通过逐帧生成视频,确保生成的视频与文本提示一致。
使用LLMs进行文本到视频生成
最近的一些研究利用MLLMs进行视频生成。例如,VideoPoet利用预训练的自回归变压器模型处理多模态数据,生成时间一致且运动保真度高的视频[69]。MAGVIT-v2探索了MLLMs的标记化技术,将视觉输入转换为离散标记,增强了大型语言模型在图像和视频生成任务中的性能[70]。
视频编辑
使用CLIP/T5进行文本指导的视频编辑
Tune-A-Video提出了一种基于预训练扩散模型的文本指导视频编辑方法,通过对目标视频进行单次调优,实现多种视频编辑功能[246]。Video-P2P和FateZero等方法通过更好的反演技术和注意力图操作,确保在编辑过程中背景保持不变,提高了编辑的时间一致性[248][249]。
使用LLMs进行文本指导的视频编辑
目前利用LLMs进行视频编辑的研究相对较少。InstructVid2Vid通过生成合成的视频指令对,提高了可控视频编辑的多样性和现实性[258]。InsV2V扩展了InstructPix2Pix的范式,使用LLMs构建合成数据,用于训练视频编辑模型[257]。
3D生成与编辑
3D生成
使用CLIP/T5进行3D生成
利用CLIP的多模态表示能力,可以通过文本描述或查询指导3D资产的生成和编辑。Text2Mesh通过预测颜色和局部几何细节,生成符合目标文本提示的3D网格[26]。DreamFusion则利用SDS损失从预训练的文本到图像生成模型中提取3D资产,显著提高了生成质量[41]。
使用LLMs进行3D生成
LLMs与3D资产的结合是一个新兴的研究方向,利用LLMs强大的语言理解能力,通过文本指令直接增强3D资产的生成、操作或理解。
例如,3D-GPT提出了一种训练自由的框架,包含任务调度、概念化和建模代理,通过这些代理,可以生成与语言对应的Blender代码,从而提高最终用户在程序化3D建模中的效率[80]。SceneCraft引入了一个LLM代理,通过生成Blender脚本,将输入的文本查询转换为3D场景[341]。此外,PointLLM结合人类指令处理有色点云,并利用LLMs预测用户问题的响应[342]。
3D编辑
使用CLIP/T5进行3D编辑
Blended-NeRF[344]提出了一种使用CLIP损失修改现有NeRF场景中特定感兴趣区域的框架,允许通过对比学习进行目标区域的编辑。NeRF-Art通过全局-局部对比学习策略,对预训练的NeRF模型进行风格化[27]。TextDeformer通过引入基于雅可比矩阵的网格变形技术,实现了基于文本的几何变形[345]。
使用LLMs进行3D编辑
目前,利用LLMs进行3D编辑的方法相对较少。编辑更多地像是LLMs生成的一个子任务。例如,3D-GPT和SceneCraft都可以直接编辑3D资产[80][341]。我们将继续关注LLMs在3D编辑中的最新发展,并在未来进行讨论。
小结
通过将CLIP或LLMs与3D资产结合,用户可以用自然语言表达他们的创意意图或期望的修改,简化了交互过程,减少了对专业软件或技术专长的需求。此外,将文本信息整合到3D生成管道中,提高了生成输出的可解释性和可调节性,使用户能够更好地理解和微调结果。
音频生成、理解与编辑
领域
音频生成、理解和编辑领域的研究已经取得了显著的进展。以下是LLMs在这些领域的主要角色:
LLMs在音频生成、理解和编辑中的角色
音频生成
音频生成领域的研究重点在于生成多样化和复杂的音频内容。例如,Make-an-Audio 2[100]和WavJourney[105]通过结合多模态方法,实现了高保真音频生成。AudioLM通过将输入音频转换为离散标记,模拟语言建模任务,生成高质量音频[110]。
音频理解
音频理解涉及对环境中各种声音的分析和解释,包括识别和分类声音、模式识别以及理解声音的上下文或来源。LTU[85]和SALMONN[91]通过结合LLMs和音频编码器,提高了音频理解的能力。AudioGPT和HuggingGPT通过协调工具,提升了音频理解的交互能力[104][103]。
音频编辑
音频编辑涉及对音频元素的实时调整和修改。例如,Loop Copilot结合LLMs和专用AI音乐模型,创建了一个协作人机音乐循环创作的对话界面[107]。
工具增强的多模态代理
动机
LLMs有时无法处理其训练数据中未包含的信息,如实时数据或私人数据。为了克服这些限制,许多研究提出通过API或外部工具增强LLMs,例如检索增强生成(RAG)和视觉基础模型。这些工具可以通过自然语言指令调用,并将结果整合到LLMs的输出中。例如,LLMs可以使用天气API获取某地的当前温度和湿度,并将其用于生成自然语言响应。
多模态代理通过增强LLMs的功能,使其能够生成和编辑图像、视频和音频,从而实现更自然和多样化的人机交互以及更强大的创意应用。
方法
工具增强的LLMs多模态交互框架一般包括三个主要阶段:
现有方法主要分为两类:
无需训练的方法
这些方法主要依赖提示工程和上下文学习,以增强LLMs的推理能力。例如,VISPROG和Visual ChatGPT通过生成代码或直接调用视觉基础模型,解决复杂的组合视觉任务[219]。HuggingGPT使用分阶段规划和模型选择,通过调用Hugging Face上的多种模型,整合多模态任务的预测结果[103]。
指令调优的方法
这些方法通过训练语言模型更精确地遵循人类指令,从而显著提高了工具使用的能力。例如,GPT4Tools通过自指令生成大量多模态上下文和工具描述,训练LLMs使用工具进行各种视觉任务[402]。ModelScope-Agent结合工具检索模块,增强了开源LLMs的工具使用能力[418]。
演示
一些多模态代理不仅开源代码,还发布了在线演示,展示其功能。例如,Visual ChatGPT和HuggingGPT可以生成和编辑图像,并通过调用图像生成或编辑模型(如Stable Diffusion和ControlNet)根据文本提示创建或修改图像[217][103]。InternGPT和ControlLLM通过支持指点设备,增强了交互性,用户可以通过点击选择感兴趣的区域进行编辑[218][407]。
小结
工具增强的多模态代理在提升人机交互的自然性和多样性方面具有重要意义。这些方法通过结合外部工具,显著增强了LLMs的能力,但也面临着如何生成多样化和高质量指令语料库以及如何在闭合语料库中训练的模型上进行泛化等挑战。
生成AI的安全性
生成模型的安全性问题引起了越来越多的关注,研究主要集中在减少偏见和有害内容的生成、保护版权以及缓解生成模型产生的虚假内容带来的影响。
攻击与防御
研究包括基于优化的攻击、提示级别的操作和数据中毒方法:
防御与检测
防御方法主要包括两种:
此外,生成模型的安全性评估还包括防止多模态生成模型生成虚假内容和嵌入水印的技术,以保护版权[465][466][467]。
数据集
为了评估生成AI的安全性,研究人员开发了一系列数据集:
这些数据集为进一步提高生成模型的安全性提供了全面的评估。
小结
通过先进的检测和数据算法技术,生成模型的安全性得到了显著提升。开源项目提供的安全检查功能,为用户提供了更安全的使用体验。水印嵌入和数据追踪技术在保护版权方面也取得了显著进展。采用这些安全技术的公共项目,将增强多模态生成应用的安全性和可信度。
应用
图像
在图像生成领域,扩散模型的发展极大地提高了合成图像的质量和真实性,催生了许多高质量的文本到图像生成工具和多模态条件图像编辑或生成解决方案。例如:
这些工具通过结合LLMs改进生成图像的质量和用户体验,展示了LLMs在图像生成中的巨大潜力。
视频
随着大规模视频生成模型的出现,用户可以通过输入文本描述生成高质量的视频片段。例如:
这些工具降低了电影和电视行业的视频制作成本,展示了LLMs在视频生成中的应用前景。
音频
在音频生成领域,LLMs的应用已经取得了显著进展,涵盖了文本到语音生成、声音传输、音乐生成等多个方面。例如:
此外,音乐生成也是一个热门领域,例如:
3D
3D模型生成在电影、游戏、工业设计、建筑等领域具有重要应用。例如:
此外,Wonder Studio提供了强大的AI工具,可以在视频中替换角色,为个性化内容创建提供了新的可能性[493]。
其他
AI驱动的软件需要处理各种模态的输入数据,生成AI在数学、法律、教育和机器人等领域的应用前景广阔。例如,AI生成的电影结合3D技术用于视频、音乐和语音生成,与人类艺术家合作,创造高质量的电影体验。
未来展望
技术展望
高分辨率生成
高分辨率多模态生成在虚拟现实、电影制作等领域至关重要,提高了生成内容的质量和用户体验。LLMs可以通过更好地理解复杂指令和生成更准确、多样化的输出,解决高分辨率生成的挑战。近期在不同模态(如图像、视频、3D和音频)生成方面的进展显著提高了生成内容的质量。未来的研究可以通过结合LLMs,进一步提升高分辨率内容的生成能力。此外,高分辨率内容生成通常需要大量的硬件资源和时间成本,因此高效的生成策略也值得深入研究。
长期序列生成
长期序列生成对视频和音频的沉浸式体验至关重要。在视频方面,它可以描绘连续的场景和叙事,而在音频方面,它支持音乐和对话的持续发展。LLMs通过捕捉复杂的模式和依赖关系,生成连贯且上下文相关的长期序列,从而提升生成内容的连贯性和一致性。未来的研究可以通过微调预训练的LLMs,并结合多模态数据集,生成跨不同模态的连贯长序列。
更精确和细粒度的生成控制
精确和细粒度的生成控制是AIGC中的一个重要课题。它不仅可以生成更真实和高质量的多模态内容,还可以促进人机交互的有效性。LLMs通过更好地理解控制信号中的细微差别,提高控制信号与生成内容之间的匹配度。例如,在图像或视频中进行文本渲染时,强大的语言模型可以显著提升拼写能力和生成质量。
多视角一致性
多视角一致性(MVC)在3D生成中尤为重要,确保对象从不同视角观察时的外观一致性。MVC对增强用户在增强现实(AR)、虚拟现实(VR)和计算机图形学中的体验至关重要。近期的研究在3D生成中引入了稀疏3D先验和扩散采样技术,以增强一致性并解决复杂几何体的生成问题。未来的研究可以结合LLMs,通过提供更多的先验知识,提高多视角一致性和生成质量。
多模态生成的统一训练
多模态生成是指同时生成包括图像、视频、3D对象和音频在内的多种模态内容。当前的大多数方法仅关注单一模态的生成,而统一训练多模态生成模型的研究相对较少。通过特征对齐和联合训练,可以实现统一的多模态生成模型,进一步提升生成内容的多样性和连贯性。
高效的训练和部署策略
随着数据集和模型规模的不断扩大,高效的训练和部署策略变得愈加重要。低秩近似技术和混合精度训练等方法在加速训练和降低计算成本方面表现出色。未来的研究可以进一步优化这些技术,并探索量化方法以提高推理效率和模型部署的可扩展性。
伦理安全的内容生成
生成模型的安全性一直是研究的热点,尤其是视频生成模型的能力不断增强,带来了更多的社会风险。未来的研究需要综合利用检测、对齐和后处理检查技术,确保生成模型的安全性和鲁棒性。
应用展望
语义音频合成
语义音频合成涉及根据语义描述或上下文线索生成音频信号,创造具有特定特征或属性的沉浸式听觉体验。例如,基于文本描述的声音景观或音乐作品可以通过多模态生成模型转化为音频波形,增强多媒体内容的现实感和丰富性。
多模态叙事
多模态叙事通过融合不同模态来创造引人入胜的叙事,提供多感官交互。例如,基于文本提示生成图像序列、视频片段或音频叙事,实现更加沉浸式的叙事体验。
交互式内容设计
交互式内容设计旨在实时创建和操控媒体元素,使用户能够积极参与创作过程。多模态生成模型通过提供实时的交互和操控能力,提高创作效率和灵活性,降低创作门槛。
3D场景生成
3D场景生成在虚拟世界、游戏、仿真和建筑可视化中具有重要应用。多模态生成模型可以通过文本描述或概念草图生成复杂的3D场景,减少手动建模的需求,加速设计过程。
可定制化虚拟角色
可定制化虚拟角色是用户可以根据个人偏好和特征进行个性化和调整的数字化身。多模态生成模型通过生成多样化的媒体类型(如图像、文本和音频)来创建逼真的虚拟角色。例如,生成模型可以根据文本描述生成虚拟角色的头像、服饰和表情,并通过语音合成技术使角色能够进行自然的对话。以下是几个具体应用:
未来展望
语义音频合成
语义音频合成涉及根据语义描述或上下文线索生成音频信号,创造具有特定特征或属性的沉浸式听觉体验。多模态生成模型通过结合文本和图像等多模态数据,可以生成更丰富和个性化的音频内容,用于娱乐、教育和虚拟现实等领域。例如,基于文本描述的声音景观或音乐作品可以通过多模态生成模型转化为音频波形,增强多媒体内容的现实感和丰富性。
多模态叙事
多模态叙事通过融合不同模态来创造引人入胜的叙事,提供多感官交互。例如,基于文本提示生成图像序列、视频片段或音频叙事,实现更加沉浸式的叙事体验。多模态生成模型支持从文本到图像、视频和音频的多方向合成,使得故事情节更加生动和多样化。
交互式内容设计
交互式内容设计旨在实时创建和操控媒体元素,使用户能够积极参与创作过程。多模态生成模型通过提供实时的交互和操控能力,提高创作效率和灵活性,降低创作门槛。例如,用户可以通过文本指令实时生成和编辑图像、视频和音频,快速实现创意。
3D场景生成
3D场景生成在虚拟世界、游戏、仿真和建筑可视化中具有重要应用。多模态生成模型通过文本描述或概念草图生成复杂的3D场景,减少手动建模的需求,加速设计过程。例如,设计师可以通过简单的文本描述生成建筑和室内设计的3D模型,快速进行迭代和优化。
可定制化虚拟角色
可定制化虚拟角色是用户可以根据个人偏好和特征进行个性化和调整的数字化身。多模态生成模型通过生成多样化的媒体类型(如图像、文本和音频),创建逼真的虚拟角色。例如,生成模型可以根据文本描述生成虚拟角色的头像、服饰和表情,并通过语音合成技术使角色能够进行自然的对话。
世界模型的未来
世界模型(World Models)是当前的热门话题,许多研究人员认为世界模型将在不久的将来成为现实。世界模型涉及感知、理解和生成多模态信息,为实现更智能的人工智能系统提供了可能性。以下是几个核心应用:
多模态教育和沟通
世界模型在教育和沟通中具有巨大潜力,通过提供多模态学习体验和沉浸式互动,促进学习和交流。例如,学生可以通过虚拟现实和增强现实技术,在沉浸式环境中学习复杂的概念和技能。多模态生成模型可以生成个性化的教育内容,满足不同学习风格和需求。
电影生成
世界模型在电影生成中代表了一种范式转变,为电影制作人提供了前所未有的创作自由和灵活性。多模态生成技术使得电影制作人能够无缝整合对话、视觉效果、声音效果和音乐,打造身临其境的电影体验。此外,世界模型可以生成动态和个性化的叙事,满足观众的个性化需求,增强观众的参与感和沉浸感。
元宇宙
元宇宙的出现为利用世界模型创建沉浸式和互动的虚拟世界提供了无限可能。通过合成多模态感官体验,包括视觉、听觉和触觉反馈,这些模型能够创建高度真实和沉浸的虚拟环境,模糊物理现实和数字现实之间的界限。此外,世界模型促进了智能虚拟代理和非玩家角色(NPC)的开发,使其表现出逼真的行为和互动,增强了元宇宙中的社交沉浸感。
结论
在本综述中,我们系统地回顾了LLMs在多模态生成和编辑中的应用,涵盖了图像、视频、3D和音频等多个领域。通过详细分析这些技术的进展和应用,我们希望为未来的研究提供指导,并推动人工智能在生成内容方面的发展。总的来说,我们期待我们的调查能为多模态生成,特别是世界模型的发展提供洞见和启发,这一领域正逐渐吸引越来越多的研究人员的关注和期待。
参考文献