Appearance
DeepSeek-VL:真实场景的视觉语言理解
—— DeepSeek 研究团队技术报告
内容摘要
大部分视觉语言模型在学术基准上表现不错,但真正用起来问题不少:看图回答问题时只能说些笼统的话,看不懂复杂场景,处理不了长文本的图片(比如文档、截图),中英文混合的场景容易出错。DeepSeek-VL从真实应用场景出发,系统解决了这些问题。
架构上,DeepSeek-VL采用了跨模态Transformer结构,但做了两个关键创新。一是跨模态稀疏专家(Cross-Modal MoE):不是简单地把图片特征和文本特征拼在一起,而是为不同类型的视觉-语言交互设计专门的专家模块。有的专家擅长处理图片中的文字,有的擅长理解空间关系,有的擅长识别细粒度的物体。这种专家机制在保持模型容量的同时,控制了计算成本。
二是支持超长上下文(64K token)。传统多模态模型通常只支持几千token,处理高分辨率图片或多张图片时会遇到瓶颈。DeepSeek-VL通过改进的位置编码和注意力机制,能在一次推理中处理多张高清图片或一张包含大量文字的文档截图。这对文档理解、视频字幕生成等任务至关重要。
训练数据方面,团队收集了超过1亿对高质量图文数据,覆盖通用场景、专业领域、文档理解等多种类型。数据清洗包括图文相关性过滤、文本质量检查、有害内容过滤等。预训练使用了对比学习和多任务学习的组合目标,让模型学会对齐图片和文本的语义空间。
在VQAv2、COCO-Caption、MME等基准测试上,DeepSeek-VL的表现优于LLaVA、Qwen-VL等同规模开源模型。特别是在需要细粒度理解的任务上(比如OCR、文档问答、细节描述),VL的优势更明显。
核心发现
跨模态MoE平衡了能力和效率 简单的密集模型要么容量不够(无法同时处理好各类视觉任务),要么成本太高(所有参数都参与每次计算)。跨模态MoE通过稀疏激活,让模型能根据输入类型动态选择合适的专家。看文档时激活OCR专家,看照片时激活场景理解专家。这让模型既能处理多样化的任务,又控制了推理成本。
长上下文是多模态的刚需 视觉语言任务比纯文本任务更需要长上下文。一张1080p的图片编码后可能就是几千个token,如果要同时处理多张图片或带图片的长文档,没有长上下文支持根本做不了。DeepSeek-VL的64K上下文能力让这些场景变得可行:分析PPT、理解漫画、提取表格数据等。
统一对齐目标提升跨模态一致性 传统训练方法往往把对比学习(图文匹配)和生成任务(图片描述)分开训练。DeepSeek-VL使用了统一的多任务对齐目标:同时优化图文相似度、图片描述准确性、以及视觉问答性能。这种联合训练让模型学到更一致的跨模态表征,在下游任务上泛化更好。
数据质量决定细粒度理解能力 VL团队在数据清洗上下了很大功夫:不只过滤低质量数据,还主动收集高质量的细粒度标注数据。比如对于一张图片,不只要有简单的描述"一只猫",还要有详细的描述"一只橙色的短毛猫,趴在木质窗台上,窗外是绿色的植物"。这种细粒度数据让模型学会关注细节,而不只是识别大类。
章节要点速览
第一章 引言 视觉语言理解需要模型同时理解图像和文本,并建立两者之间的对应关系。现有模型在真实场景中存在泛化能力弱、长文本处理能力不足、细粒度理解不够等问题。DeepSeek-VL旨在构建面向实际应用的多模态模型。
第二章 相关工作 回顾了视觉语言模型的发展历史,包括早期的区域特征+Transformer方法(如OSCAR、UNITER),基于CLIP的对比学习方法,以及最近的大语言模型+视觉编码器方法(如Flamingo、BLIP-2)。分析了这些方法的优缺点。
第三章 模型架构 详细介绍了DeepSeek-VL的三个核心组件:
- 视觉编码器:基于ViT的图像特征提取器,支持多分辨率输入
- 跨模态MoE:稀疏专家机制实现高效的视觉-语言交互
- 语言解码器:基于DeepSeek-LLM的文本生成模块 还介绍了用于处理长上下文的改进位置编码和注意力机制。
第四章 预训练语料与目标 预训练数据包括三类:
- 通用图文对(网页、社交媒体)
- 专业领域数据(医学影像、卫星图、科技论文插图)
- 文档数据(PDF、PPT、表格截图) 预训练目标结合了对比学习、图片描述、视觉问答等多个任务,通过多任务学习提升模型的泛化能力。
第五章 下游任务微调 在预训练基础上,针对具体的下游任务进行微调:
- 视觉问答(VQA):回答关于图片的问题
- 图片描述(Image Captioning):生成描述图片内容的文本
- 视觉推理(Visual Reasoning):基于图片进行推理和判断
- 文档理解(Document Understanding):提取和理解文档中的信息 微调使用了参数高效方法(如Adapter、LoRA),降低了训练成本。
第六章 实验与消融 在多个基准测试上评估了DeepSeek-VL的性能:
- VQAv2:通用视觉问答
- COCO-Caption:图片描述生成
- MME:多模态评估基准
- DocVQA:文档视觉问答
- TextVQA:包含文字的图片问答 消融实验分析了跨模态MoE、长上下文、多任务预训练等各个组件的贡献。
第七章 局限与未来方向 讨论了DeepSeek-VL的局限性:
- 视频理解能力有限(目前主要针对静态图片)
- 3D空间理解不足(难以处理立体场景)
- 多轮对话中的跨图片推理还不够稳定 未来方向包括扩展到视频、3D、以及更复杂的多模态推理任务。
DeepSeek-VL的核心突破在于: 通过跨模态MoE和长上下文支持,让视觉语言模型能够真正处理实际应用中的复杂场景,而不只是在学术基准上刷分。