注册并分享邀请链接,可获得视频播放与邀请奖励。

歸藏(guizang.ai)
@op7418
关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) 歸藏的 AIGC 周刊|公众号:歸藏的AI工具箱
加入 August 2013
1.3K 正在关注    147.2K 粉丝
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开 底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。 自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。 模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。 在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。
显示更多
0
25
414
36
转发到社区