歸藏(guizang.ai)(@op7418 ):DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开底座是 DeepSeek-V4-Flash，MoE架构，总参数量 284B，激活参数量 13B。自研 DeepSeek‑ViT 视觉编码模型，14×14 patch，输出后 3×3 空间压缩，再接入 LLM。模型在回答时不仅进行文字推理，还会同时通过画框、打点等“视觉原语”进行思考。在极低的 Token 成本下，其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐，甚至有的指标能反超。

歸藏(guizang.ai)

@op7418

关注人工智能、LLM 、 AI 图像视频和设计（Interested in AI, LLM, Stable Diffusion, and design）歸藏的 AIGC 周刊｜公众号：歸藏的AI工具箱

加入 August 2013

1.3K 正在关注 147.2K 粉丝

歸藏(guizang.ai)@op7418

2026.04.30 12:09

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开底座是 DeepSeek-V4-Flash，MoE架构，总参数量 284B，激活参数量 13B。自研 DeepSeek‑ViT 视觉编码模型，14×14 patch，输出后 3×3 空间压缩，再接入 LLM。模型在回答时不仅进行文字推理，还会同时通过画框、打点等“视觉原语”进行思考。在极低的 Token 成本下，其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐，甚至有的指标能反超。

显示更多