搜索全模态模型相关的推文

2026.05.18 23:00

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#

显示更多

0

11

181

18

转发到社区

DianMir Cloud@DianMirCloud

2026.05.11 09:58

我们的自建AI模型API聚合平台终于上线了！！！ 1. 1 key调用全模态AI模型，覆盖文本，图像，音频，视频 2. 原厂直连，非中转 3. 全球加速，海外模型访问稳定，不用自建代理 4. 统一管理，账单/用量/权限一站式控制台 5. 同时支持多key管理，可按团队/项目拆分具体折扣信息，请联系 Telegram：@dianmircloud #token# #词元# #claude# #openai# #chatgpt# #模型调用# #大模型#

显示更多

0

转发到社区

CryptoMaid加密女仆お嬢様 .edge🦭@maid_crypto

2026.03.19 03:18

小米今天正式发布了MiMo-V2系列旗舰模型，包括 1.MiMo-V2-Pro：总参数超1T（激活42B），专为Agent场景优化，支持1M超长上下文，全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni：全模态基座模型（文本+图像+视频+音频理解），音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS：端到端语音合成模型，支持高保真、多语种、自然情感表达。（ai语音说话）相关链接官方API开放平台（接入、定价、文档）：（MiMo-V2-Pro API定价：256K内输入$1/百万tokens、输出$3；1M内输入$2、输出$6。注册后可立即获取Key。）在线体验平台（MiMo Studio，含MiMo Claw Agent演示，直接免费试用MiMo-V2-Pro的Agent能力）：（推荐从这里开始玩，网页端就能体验“养龙虾”式的复杂任务，比如自动生成网站、操控工具等。）初步评测： Artificial Analysis排行榜：MiMo-V2-Pro全球第8（综合智能指数），国内第二（强调性价比最高之一，尤其在< $0.15/百万tokens价位段霸榜。） OpenClaw标准评测（PinchBench & ClawEval）：MiMo-V2-Pro排名全球顶尖（第三，仅次Claude Sonnet 4.6和Opus 4.6）。在无人工干预下，能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用；早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens，多日登顶日榜。作如何和OpenClaw结合？ MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的！小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队，提供一周限时免费接口支持（全球开发者都能白嫖）。结合方式：直接用MiMo API替换Claude/OpenAI Key（兼容OpenAI SDK格式），在OpenClaw的Scaffold（脚手架）里接入即可。模型针对OpenClaw等框架做了深度SFT + RL强化，工具调用、多步推理、长程规划特别稳。实际表现：在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路，像真人操作浏览器。小米自己的扩展：他们还出了Xiaomi miclaw（手机端类OpenClaw系统级Agent），基于MiMo系列，能直接“动手操作手机”。快速上手建议：去 Claw（内置OpenClaw式演示）；或直接在OpenClaw项目里换API Base为

显示更多

0

3

1

0

转发到社区

歸藏(guizang.ai)@op7418

2026.04.29 13:59

Deepseek 的多模态模型全量了。目前可以在网页版的识图模式尝试，看起来是一个单独的多模态模型

0

30

55

0

转发到社区

阑夕@foxshuo

2026.05.17 06:07

阿里前几天刚发季报，破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入：截至今年3月超过80亿人民币，预计6月达到100亿，年底突破300亿。相当于半年3.75x的增长速度，大概也是基于如此乐观的势头，阿里才会难得的公布这个数字，向资本市场构建叙事。所以你以为我要开始吹阿里了？错了。阿里的AI收入，建立在阿里云这个中国最大的云计算平台上，阿里云拥有现成的客户群体、销售网络和算力资源，用配套升级的方式去叠一层AI服务收入，是很容易的。所以真正要吹的，不是阿里的AI业绩凭什么增长这么快，而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速，那么原生AI公司今年在同样的市场环境下，增速会飙到什么地步？要知道，原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的，除了更加纯粹的增长之外，因为不必承担其他业务的成本转移，ROI的负担也更小。比如摩根士丹利测算发现MiniMax平均每分钟进账1美金，同时成本低于0.3美金，而行业平均收入只有约0.5美元/分钟，相当于MiniMax仅凭利润就跑赢了大盘。这就是Pure-play的价值，算清楚这笔账，对于理解走向拐点时刻的AI行业，非常重要。在研报里，摩根大通认为中国在2026年的企业端需求，很大概率会复制美国2025年至今的来路，也就是从试点到规模化投入再到AI成为固定支出的三级跳。简而言之，就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹，300亿美金的经常性年化收入，让它成为了全球瞩目的新王，甚至让OpenAI的股份交易在一级市场失去了吸引力。毫无疑问，Coding是一个回报路径极其明确的赛道，根据The Information的报道，在企业级市场，Anthropic展现了空前强势的定价权，从它用按量计费替换订阅套餐，到上线导致Token费用上涨的分词器，都让企业找不到商量余地，只能拿着超标的账单去找老板加大预算。没办法，品质和稀缺绑在一起，就是硬通货。摩根大通也是这么判断的，在AI行业，拥有强大模型的公司某种程度上可以豁免于成本战争，而且它想进入「下沉市场」的难度，要远低于低价模型打入「高端市场」。但Coding是一个已经实现预期的赛道，下一个大的是什么？目前来看，几天之后的Google I/O大会非常重要，从已经被剧透的Gemini Omni来看，「All In One」的全栈模型要给多模态打翻身仗了。那个教授在黑板上写公式讲课的片段，之所以艳惊四座，是因为它并非简单的视频生成，这个新的Gemini Omni模型同时搞对了三件事：手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。更直白的说，这绝对不是三个模型合在一起的结果，而是基座模型已经就在全模态信息上完成了训练，也就是，世界模型的雏形。像是杨立昆、李飞飞这些不属于Transform派别的行业大佬，都对语言模型颇有微词，认为这条路线跑不出真正的世界模型，所以都选择了另辟蹊径，但Google、OpenAI甚至字节跳动都在证明，即使语言模型确实有局限之处，只要坚持Scaling Laws、在同一个基座模型上训练全模态能力，同样能够渐进式的通向世界模型。如果只看Coding的叙事，中国的原生AI公司都在扮演「一个更便宜的Anthropic」，杀成一片红海。但在找出「一个更本土的Google」这件事情上，就会发现阿里、字节和MiniMax都在这么干，只有它们的模型迭代方向与Google完全一致：在一个系统内完成文本理解、图片生成、视频生成和音频输出。王慧文在即刻上说，一家新兴公司的估值，是由相信它的资本定价的，不是不相信它的人定价的，「好吧，这是句废话。」多模态的生成是语言模型理解世界的硬验证信号，且大部分底层能力与核心模型复用，多个模态并不等同于多份研发投入，有限的成本提升，能够极具经济性的帮助AI构建世界，并让每一代模型的更新不断放大效率差，并打开更高的智能上限。我想吹的和期待看到的，其实就是这个。

显示更多

0

5

81

13

转发到社区

鸟哥 | 蓝鸟会🕊️@NFTCPS

2026.05.14 10:08

上海交大这份大模型教程，藏得有点深 GitHub上发现一个宝藏项目，上海交大出品，叫 Dive into LLMs，11个主题全覆盖，每个模块都有课件+教程+可跑代码，不是那种看完啥也不会的纯理论。重点来了，这11个方向： 1️⃣ 微调与部署 2️⃣ 提示学习与思维链 3️⃣ 知识编辑（让模型记住或忘掉某件事） 4️⃣ 数学推理，蒸馏迷你R1 5️⃣ 模型水印 6️⃣ 越狱攻击（怎么撬开大模型的嘴） 7️⃣ 大模型隐写 8️⃣ 多模态 9️⃣ GUI智能体，让AI替你点外卖 🔟 智能体安全 1️⃣1️⃣ RLHF安全对齐还联合华为昇腾出了配套课程，初中高三级，有视频有实验手册。 🔗 链接:

显示更多

0

1

2

0

转发到社区

唐华斑竹🦅@uniswap12

2026.05.19 03:27

现在对AI模型能力有个挺明确的感受：不再有谁全面领先，关键看你拿它干什么。ChatGPT、Claude、Gemini三家走了完全不同的路，各自的长板短版现在看得清清楚楚。要是你只盯着一家用，碰上不对口的任务，等于拿着锤子找钉子。先交代一下版本，2026年5月这三家的旗舰分别是OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7，还有Google的Gemini 3.1 Pro。 ChatGPT像个工具箱，什么都往里装。它的产品矩阵最全，一个订阅下来，GPT Image 2多模态生图、Sora视频生成、Code Interpreter上传数据跑代码分析、Deep Research自动联网爬几十个网页出报告、Codex做编程agent，基本不用再去别处凑工具。语音对话也是三家里面最自然的，语气有起伏，不僵硬，拿来练口语或者做语言交换，体感最好。商业策略类的推理，有第三方盲测对比过，像“竞争对手降价你怎么应对”这种结构性问题，ChatGPT表现排第一。加上它是第一个跑出来的，插件生态、自定义GPTs的成熟度，其他两家暂时还追不上。 Claude走的是精度路线，尤其写作和代码。中英文输出最不像AI写的，能贴着你的风格要求走，不会冒出那种千篇一律的填充感。有个134人参与的盲测，写作类比拼Claude几乎是碾压式赢下来的。指令遵循也最稳，你给一长串带各种约束条件的复杂指令，它漏掉条件或者跑偏的概率最低。法律文书、合规文档、结构化文档这些高精度场景，Claude的可靠性很突出。代码方面，Claude Opus 4.7在SWE-Bench Pro这个真实世界编程基准上处于领先，复杂代码、大型代码库重构、架构理解，很多专业开发者把Claude Code当首选。上下文支持1M token，整本书、整个代码库、超长合同丢进去，深度理解和连贯性都强。还有一个Cowork功能，是三家里面唯一能直接在你电脑文件夹里干活的，浏览文件、处理、生成交付物，都在本地操作。 Gemini的多模态理解和Google生态绑定是它最硬的两张牌。图像、视频、音频理解，Gemini 3.1 Pro在三家里最强。举个例子，你给它一段健身视频，它能根据动作给你反馈；你录一段自己说英语的音频，它能纠正发音。这种视频音频层面的理解，ChatGPT做起来慢，Claude基本做不了。然后Google全家桶原生集成，Docs、Sheets、Gmail、Drive、Meet全通，如果你的工作生活跑在Google Workspace上，Gemini可以直接在你的文档和邮件里动手干活。上下文窗口也最大，1M到2M token，处理超大文档集合或者超大代码库，容量优势明显。搜索能力天然整合Google，做需要大量网络信息的研究或者快速查证，它最接地气。响应速度通常也是三家最快。所以现在没有什么“最好”的AI，只有最适合你手上那件事的AI。你要全功能覆盖、语音交互、商业策略分析，ChatGPT合适。你要高质量写作、精准遵循指令、复杂代码重构、长文档深度阅读，或者需要AI直接在本地文件夹里操作，Claude是首选。你要是频繁处理视频音频图像、深度依赖Google生态、需要超长上下文或者快节奏联网研究，Gemini最顺手。按任务类型简单速查一下：写作类（中英文、风格跟随、避免AI腔）：Claude。复杂编程、代码库重构：Claude。多模态理解（图、视频、音频分析）：Gemini。长文档深度阅读（整本书、超长合同）：Claude或者Gemini，前者连贯性强，后者容量更大。商业策略推理、结构化问题：ChatGPT。语音对话、口语练习：ChatGPT。直接操作本地文件夹：Claude的Cowork。 Google生态内干活（邮件、文档、表格）：Gemini。联网研究、大量信息查证：Gemini。产品功能集成度、一站式解决：ChatGPT。 #AI# #AIAgent#

显示更多

0

4

3

0

转发到社区

看不懂的SOL@DtDt666

2026.05.14 13:27

2026年4月全球大模型公司能力梯队全景图 AI叙事，才刚刚开始兄弟们，看这张图。 2026年4月全球大模型公司能力梯队全景图，T1到T5，密密麻麻几十家公司。 T1梯队：OpenAI、Anthropic、Google、xAI。估值到1万亿级别，工业级Agent闭环、GPQA推理准确率超94%、代码生成率超85%。 T2梯队：阿里、DeepSeek、Meta、智谱AI。多模态与逻辑推理、代码生成率TOP 5、开源生态标杆。 T3梯队：Moonshot、Mistral、MiniMax、Meta、NVIDIA。垂直行业分析、端侧部署、行业级多模态。 T4梯队：百度、微软、亚马逊、Cohere、Falcon。政企流式推理、私有化部署、端云协同。 T5梯队：零一万物、百川智能、商汤、Stability AI。细分场景、端侧部署、开源社区。兄弟们有发现没有？巨头开始全产业链的军备竞赛。很多人问我，AI是不是已经涨完了？泡沫是不是要破了？从T1到T5，每一层都在疯狂迭代。 OpenAI的GPQA准确率冲到94%，DeepSeek把代码生成干到TOP 5，NVIDIA靠算力垄断坐稳T3，连T5的创业公司都在细分场景里找生存空间。这不是泡沫，这是战争。一场关于算力、数据、模型、应用的全面战争。而且最可怕的是：这场战争没有终点。今天T1的技术优势，可能三个月后被T2追上。今天的开源模型，明天就被闭源超越。今天的算力霸主，后天可能被新的架构颠覆。所以兄弟们，别被AI泡沫论吓跑了。 1999年互联网泡沫的时候，全世界也没几张这样的梯队图。那时候大家连商业模式都没有，纯粹炒概念。现在呢？ OpenAI月收入20亿美元，Anthropic年化收入300亿美元，NVIDIA一季度营收1300亿美元。这些公司是真的在赚钱，真的在改变世界的运行方式。 AI叙事不是结束了，是才刚刚开始。大模型只是第一层。上面还有Agent、机器人、自动驾驶、科学发现、药物研发。每一个领域都是万亿级别的市场，每一个领域都还在早期。也意味着不要试图预测终点。这场战争的赢家还没确定，但战场本身就在扩张。只要战场在扩张，参与者的市值就有上升空间。 AI叙事还在继续。

显示更多

0

27

206

46

转发到社区

Vincent Logic | 信号＞噪音@VincentLogic

2026.05.14 07:42

NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成块"吞噬"数据，效率直接拉满以后这些场景真的爽：全天监控里找"没戴安全帽且在争吵"的人几百个素材里精准定位"有海浪声且拍到日落"的画面听一段机器运转视频就能诊断电机异响几分钟帮你搞定，连 Whisper 的钱都省了不过要注意，这哥们是个典型的偏科生技能点全加在了多模态理解和处理效率上，想拿它写代码或者搞高难度文本推理，表现可能还不如一些轻量级纯文本模型结论：别把它当全能程序员，但在音视频分析、海量素材打标这些实战场景里，它绝对是开源界的神搞 AI 视频、多模态的兄弟，这个必须试试项目地址放评论区了👇

显示更多

0

7

271

46

转发到社区

GitTrend@GitTrend0x

2026.05.09 08:54

100% 本地桌面AI Agent 杀手级开源神器这就是 UI-TARS-desktop，字节跳动开源的 31k 星爆款多模态桌面自动化代理！一句话总结：它能看懂你的整个屏幕，用自然语言指挥鼠标键盘，帮你操作任何桌面App和浏览器，全程 100% 本地运行，隐私安全拉满，再也不用把屏幕内容丢给云端！核心黑科技： • UI-TARS + Seed-1.5-VL 视觉语言模型实时截图理解 • 精准鼠标/键盘控制 + 实时反馈 • 自然语言指令直接搞定一切：打开 VS Code、改系统设置、刷 GitHub、浏览器全自动操作…… • 支持 Windows / macOS / Browser 跨平台完全开源（Apache 2.0），本地跑模型，无云端、无 API 费用、无数据泄露风险。商业电脑使用代理（Anthropic Computer Use 之流）动辄几百刀/月 + 隐私隐患，这里直接白嫖本地版！程序员、办公党、重度电脑用户、自动化爱好者的终极解放神器，几分钟部署就能把重复劳动全扔给它干！再也不用手动点点点了 😂 用了就回不去了 😭

显示更多

GitTrend@GitTrend0x

2026.05.09 05:44

你肯定需要却还没发现的工具： OmniGet。一键粘贴链接，就能从 YouTube、Twitter、TikTok、Reddit 甚至 Udemy 拉媒体，本地桌面 App，无广告无跟踪，下载就是这么丝滑。简单想法，极致执行。内容创作者、研究者、离线党必备。再也不用被各种平台墙折腾了！

显示更多

0

3

172

26

转发到社区