探索多模态大模型的通用能力增强和跨模态能力迁移
通用能力增强
- 逻辑推理 (Reasoning): 模型理解物体间的关系、因果和逻辑。
- 指令遵循 (Instruction Following): 模型能分解复杂指令,并一步步执行。
- 世界知识 (World Knowledge)
- 创意生成 (Creative Generation)
跨模态能力迁移 (Cross-Modal Capability Transfer)
让模型在一个模态中学到的能力,能够应用到另一个模态上。
- AI如何实现:
- 文本 -> 视觉
- 语言模型(比如GPT-4的纯文本版本)通过阅读海量文本,学会了强大的逻辑推理和分步思考能力(比如思维链 CoT)。
- “迁移” 就是我们希望模型能把这种从文本中学到的推理能力,应用到分析一张复杂的图片上。比如,看到一张车祸现场的图片,模型能像侦探一样,通过分析车辆位置、刹车痕迹、路人表情等线索,推理出事故发生的大致过程。它用的不是简单的物体识别,而是从文本中学到的逻辑分析框架。
- 代码 -> 视觉/行为
- 模型通过学习海量代码,掌握了结构化、逻辑化、流程化的思维。
- “迁移” 就是让模型在看到一个宜家家具的安装示意图时,能像理解一段代码一样,生成一步步的安装指令。这对于机器人等具身智能(Embodied AI)领域至关重要。
- 文本 -> 视觉
技术与挑战
当前 MMLM 的核心挑战:
- 幻觉 (Hallucination): 模型会“脑补”出图片中不存在的细节。为什么会产生?如何缓解(如使用更精确的数据、引入外部知识库、改进训练方法)?
- 细粒度理解 (Fine-grained Understanding): 模型能认出“车”,但分不清“丰田凯美瑞2022款”;能看出“人”,但看不出细微的表情变化。如何提升?
- 数据问题: 高质量的图文对数据(尤其是用于指令微调的数据)非常稀缺和昂贵。
- 评测 (Evaluation): 如何客观、全面地评测一个 MMLM 的“通用能力”?了解一些主流 Benchmark,如 MME, MMBench, MathVista, VQA-Bench 等。
课题相关的最新研究方向:
- 思维链 (Chain-of-Thought) 在多模态的应用: 如何让模型在回答视觉问题时,像人一样先进行一步步的文字分析,再给出结论。
- 世界模型 (World Models): 如何让模型通过学习多模态数据(尤其是视频),在内部构建一个关于物理世界如何运作的动态模型。Sora 就是这个方向的初步探索。
- 模型效率: 如何在保持性能的同时,让这些庞然大物变得更小、更快(如模型量化、蒸馏、剪枝)。
- 具身智能 (Embodied AI): 如何将 MMLM 与机器人结合,实现“说、看、做”一体的智能体。
面试准备的TODO list
leetcode hot100
Transformer架构
- 必知: Self-Attention 机制是核心中的核心,,并解释 Q, K, V 的含义、计算过程以及 Multi-Head Attention 的作用。
- 延伸: Positional Encoding(位置编码)、Layer Normalization、Feed-Forward Network 的作用。
视觉模型基础
- 必知: Vision Transformer (ViT) 的原理。如何将一张图片切分成 Patches,如何加入 Class Token,以及它如何借鉴了 Transformer 的思想。
- 延伸: 了解 CNN(如 ResNet)的基本思想,因为很多模型依然会用 CNN 作为视觉特征提取器。
语言模型基础
- 必知: GPT 和 BERT 系列的区别。自回归(Auto-regressive)和自编码(Auto-encoding)模型的差异。
- 核心概念: Pre-training(预训练)和 Fine-tuning(微调)的范式,什么是 Prompt Engineering,什么是 In-Context Learning。
模态融合/对齐 (Alignment) 的经典方法
- CLIP (Contrastive Language-Image Pre-training):
- 必知: 这是多模态领域的奠基之作。一定要理解它的对比学习 (Contrastive Learning) 思想:如何将匹配的(图片,文本)对在特征空间中拉近,将不匹配的推远。这是实现“跨模态能力迁移”的早期关键技术。
- 应用: Zero-shot image classification(零样本图像分类)。
- CLIP (Contrastive Language-Image Pre-training):
现代多模态大模型 (MMLM) 架构
- LLaVA / MiniGPT-4 范式: 这是目前最主流的架构
- 结构:
Vision Encoder (通常是 ViT 或 CLIP 的视觉部分)+Projector (一个简单的MLP或Q-Former)+LLM (如 Llama, Vicuna)。 - 工作流程: 图片通过 Vision Encoder 变成特征向量,Projector 将视觉特征“翻译”成 LLM 能理解的语言特征(Token),然后和文本 Prompt 一起喂给 LLM。
- 训练方法: 理解其两阶段训练法:第一阶段只训练 Projector 来对齐特征,第二阶段进行端到端的指令微调 (Instruction Tuning)。
- 结构:
- LLaVA / MiniGPT-4 范式: 这是目前最主流的架构
多模态生成模型
- 文生图: 了解 Diffusion Model(扩散模型)的基本原理,知道 DALL-E 2/3, Stable Diffusion, Midjourney 的名字和大致区别。
- 文生视频: 了解 Sora 代表的技术方向,比如 Spacetime Patches(时空块)的概念。
https://github.com/rednote-hilab 看一看dotc.ocr dots.vlm1
References
https://zhuanlan.zhihu.com/p/682893729
If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !