炸!刚刚小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!

小红书的人文智能实验室(hi lab)近日宣布开源了其最新的多模态大模型dots.vlm1。这款模型建立在DeepSeek V3的基础上,并配备了小红书自研的12亿参数视觉编码器NaViT,展现出强大的多模态理解与推理能力。

据hi lab介绍,dots.vlm1在多个视觉评测集上的表现已经接近当前领先的模型,如Gemini 2.5 Pro和Seed-VL1.5 thinking。特别是在MMMU、MathVision、OCR Reasoning等基准测试中,dots.vlm1显示出卓越的图文理解与推理能力。它能理解复杂的图文交错图表,解析表情包背后的含义,分析产品配料表差异,并能准确判断博物馆中文物和画作的名称及背景信息。

dots.vlm1由三个核心组件构成:一个12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器,以及DeepSeek V3 MoE大语言模型。其训练过程经历了三个阶段,包括视觉编码器预训练、VLM预训练和VLM后训练。在视觉编码器预训练阶段,NaViT编码器通过大量图文对和纯图像数据进行训练,以增强对多样视觉数据的感知能力。在VLM预训练阶段,视觉编码器与DeepSeek V3联合训练,使用大规模、多样化的多模态数据集。最后,在VLM后训练阶段,通过有监督微调增强模型的泛化能力。

这个由3.5亿月活平台孵化的模型,实测表现直逼谷歌Gemini 2.5 Pro(当前最强闭源模型),总的来说可以:

✅ 看穿色盲测试图(人类都容易翻车!)

✅ 10秒解高考数学题(带完整推理过程)

✅ 破解地狱级数独(强行修正错误还喊“Yes!”)

✅ 一句话写李白诗风(输出惊艳古诗震撼全网)

原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/312.html

(0)
上一篇 2025年8月6日 上午8:55
下一篇 2025年8月7日 下午9:17

相关推荐