注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 全模态模型
全模态模型 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 全模态模型 的推特
究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#
显示更多
0
11
181
18
转发到社区
我们的自建AI模型API聚合平台终于上线了!!! 1. 1 key调用全模态AI模型,覆盖文本,图像,音频,视频 2. 原厂直连,非中转 3. 全球加速,海外模型访问稳定,不用自建代理 4. 统一管理,账单/用量/权限 一站式控制台 5. 同时支持多key管理 ,可按团队/项目拆分 具体折扣信息,请联系 Telegram:@dianmircloud #token# #词元# #claude# #openai# #chatgpt# #模型调用# #大模型#
显示更多
小米今天正式发布了MiMo-V2系列旗舰模型,包括 1.MiMo-V2-Pro:总参数超1T(激活42B),专为Agent场景优化,支持1M超长上下文,全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni:全模态基座模型(文本+图像+视频+音频理解),音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS:端到端语音合成模型,支持高保真、多语种、自然情感表达。 (ai语音说话) 相关链接 官方API开放平台(接入、定价、文档): (MiMo-V2-Pro API定价:256K内输入$1/百万tokens、输出$3;1M内输入$2、输出$6。注册后可立即获取Key。) 在线体验平台(MiMo Studio,含MiMo Claw Agent演示,直接免费试用MiMo-V2-Pro的Agent能力): (推荐从这里开始玩,网页端就能体验“养龙虾”式的复杂任务,比如自动生成网站、操控工具等。) 初步评测: Artificial Analysis排行榜:MiMo-V2-Pro全球第8(综合智能指数),国内第二 (强调性价比最高之一,尤其在< $0.15/百万tokens价位段霸榜。) OpenClaw标准评测(PinchBench & ClawEval):MiMo-V2-Pro排名全球顶尖(第三,仅次Claude Sonnet 4.6和Opus 4.6)。在无人工干预下,能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用;早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens,多日登顶日榜。 作如何和OpenClaw结合? MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的! 小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队,提供一周限时免费接口支持(全球开发者都能白嫖)。结合方式:直接用MiMo API替换Claude/OpenAI Key(兼容OpenAI SDK格式),在OpenClaw的Scaffold(脚手架)里接入即可。 模型针对OpenClaw等框架做了深度SFT + RL强化,工具调用、多步推理、长程规划特别稳。 实际表现:在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路,像真人操作浏览器。 小米自己的扩展:他们还出了Xiaomi miclaw(手机端类OpenClaw系统级Agent),基于MiMo系列,能直接“动手操作手机”。 快速上手建议:去 Claw(内置OpenClaw式演示); 或直接在OpenClaw项目里换API Base为
显示更多
Deepseek 的多模态模型全量了。 目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型
0
30
55
0
转发到社区
阿里前几天刚发季报,破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入: 截至今年3月超过80亿人民币,预计6月达到100亿,年底突破300亿。 相当于半年3.75x的增长速度,大概也是基于如此乐观的势头,阿里才会难得的公布这个数字,向资本市场构建叙事。 所以你以为我要开始吹阿里了?错了。 阿里的AI收入,建立在阿里云这个中国最大的云计算平台上,阿里云拥有现成的客户群体、销售网络和算力资源,用配套升级的方式去叠一层AI服务收入,是很容易的。 所以真正要吹的,不是阿里的AI业绩凭什么增长这么快,而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速,那么原生AI公司今年在同样的市场环境下,增速会飙到什么地步? 要知道,原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的,除了更加纯粹的增长之外,因为不必承担其他业务的成本转移,ROI的负担也更小。 比如摩根士丹利测算发现MiniMax平均每分钟进账1美金,同时成本低于0.3美金,而行业平均收入只有约0.5美元/分钟,相当于MiniMax仅凭利润就跑赢了大盘。 这就是Pure-play的价值,算清楚这笔账,对于理解走向拐点时刻的AI行业,非常重要。 在研报里,摩根大通认为中国在2026年的企业端需求,很大概率会复制美国2025年至今的来路,也就是从试点到规模化投入再到AI成为固定支出的三级跳。 简而言之,就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹,300亿美金的经常性年化收入,让它成为了全球瞩目的新王,甚至让OpenAI的股份交易在一级市场失去了吸引力。 毫无疑问,Coding是一个回报路径极其明确的赛道,根据The Information的报道,在企业级市场,Anthropic展现了空前强势的定价权,从它用按量计费替换订阅套餐,到上线导致Token费用上涨的分词器,都让企业找不到商量余地,只能拿着超标的账单去找老板加大预算。 没办法,品质和稀缺绑在一起,就是硬通货。 摩根大通也是这么判断的,在AI行业,拥有强大模型的公司某种程度上可以豁免于成本战争,而且它想进入「下沉市场」的难度,要远低于低价模型打入「高端市场」。 但Coding是一个已经实现预期的赛道,下一个大的是什么? 目前来看,几天之后的Google I/O大会非常重要,从已经被剧透的Gemini Omni来看,「All In One」的全栈模型要给多模态打翻身仗了。 那个教授在黑板上写公式讲课的片段,之所以艳惊四座,是因为它并非简单的视频生成,这个新的Gemini Omni模型同时搞对了三件事: 手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。 更直白的说,这绝对不是三个模型合在一起的结果,而是基座模型已经就在全模态信息上完成了训练,也就是,世界模型的雏形。 像是杨立昆、李飞飞这些不属于Transform派别的行业大佬,都对语言模型颇有微词,认为这条路线跑不出真正的世界模型,所以都选择了另辟蹊径,但Google、OpenAI甚至字节跳动都在证明,即使语言模型确实有局限之处,只要坚持Sc­a­l­i­ng La­ws、在同一个基座模型上训练全模态能力,同样能够渐进式的通向世界模型。 如果只看Coding的叙事,中国的原生AI公司都在扮演「一个更便宜的Anthropic」,杀成一片红海。 但在找出「一个更本土的Google」这件事情上,就会发现阿里、字节和MiniMax都在这么干,只有它们的模型迭代方向与Google完全一致:在一个系统内完成文本理解、图片生成、视频生成和音频输出。 王慧文在即刻上说,一家新兴公司的估值,是由相信它的资本定价的,不是不相信它的人定价的,「好吧,这是句废话。」 多模态的生成是语言模型理解世界的硬验证信号,且大部分底层能力与核心模型复用,多个模态并不等同于多份研发投入,有限的成本提升,能够极具经济性的帮助AI构建世界,并让每一代模型的更新不断放大效率差,并打开更高的智能上限。 我想吹的和期待看到的,其实就是这个。
显示更多
0
5
81
13
转发到社区
上海交大这份大模型教程,藏得有点深 GitHub上发现一个宝藏项目,上海交大出品,叫 Dive into LLMs,11个主题全覆盖,每个模块都有课件+教程+可跑代码,不是那种看完啥也不会的纯理论。 重点来了,这11个方向: 1️⃣ 微调与部署 2️⃣ 提示学习与思维链 3️⃣ 知识编辑(让模型记住或忘掉某件事) 4️⃣ 数学推理,蒸馏迷你R1 5️⃣ 模型水印 6️⃣ 越狱攻击(怎么撬开大模型的嘴) 7️⃣ 大模型隐写 8️⃣ 多模态 9️⃣ GUI智能体,让AI替你点外卖 🔟 智能体安全 1️⃣1️⃣ RLHF安全对齐 还联合华为昇腾出了配套课程,初中高三级,有视频有实验手册。 🔗 链接:
显示更多
现在对AI模型能力有个挺明确的感受:不再有谁全面领先,关键看你拿它干什么。ChatGPT、Claude、Gemini三家走了完全不同的路,各自的长板短版现在看得清清楚楚。要是你只盯着一家用,碰上不对口的任务,等于拿着锤子找钉子。 先交代一下版本,2026年5月这三家的旗舰分别是OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7,还有Google的Gemini 3.1 Pro。 ChatGPT像个工具箱,什么都往里装。 它的产品矩阵最全,一个订阅下来,GPT Image 2多模态生图、Sora视频生成、Code Interpreter上传数据跑代码分析、Deep Research自动联网爬几十个网页出报告、Codex做编程agent,基本不用再去别处凑工具。语音对话也是三家里面最自然的,语气有起伏,不僵硬,拿来练口语或者做语言交换,体感最好。商业策略类的推理,有第三方盲测对比过,像“竞争对手降价你怎么应对”这种结构性问题,ChatGPT表现排第一。加上它是第一个跑出来的,插件生态、自定义GPTs的成熟度,其他两家暂时还追不上。 Claude走的是精度路线,尤其写作和代码。 中英文输出最不像AI写的,能贴着你的风格要求走,不会冒出那种千篇一律的填充感。有个134人参与的盲测,写作类比拼Claude几乎是碾压式赢下来的。指令遵循也最稳,你给一长串带各种约束条件的复杂指令,它漏掉条件或者跑偏的概率最低。法律文书、合规文档、结构化文档这些高精度场景,Claude的可靠性很突出。代码方面,Claude Opus 4.7在SWE-Bench Pro这个真实世界编程基准上处于领先,复杂代码、大型代码库重构、架构理解,很多专业开发者把Claude Code当首选。上下文支持1M token,整本书、整个代码库、超长合同丢进去,深度理解和连贯性都强。还有一个Cowork功能,是三家里面唯一能直接在你电脑文件夹里干活的,浏览文件、处理、生成交付物,都在本地操作。 Gemini的多模态理解和Google生态绑定是它最硬的两张牌。 图像、视频、音频理解,Gemini 3.1 Pro在三家里最强。举个例子,你给它一段健身视频,它能根据动作给你反馈;你录一段自己说英语的音频,它能纠正发音。这种视频音频层面的理解,ChatGPT做起来慢,Claude基本做不了。然后Google全家桶原生集成,Docs、Sheets、Gmail、Drive、Meet全通,如果你的工作生活跑在Google Workspace上,Gemini可以直接在你的文档和邮件里动手干活。上下文窗口也最大,1M到2M token,处理超大文档集合或者超大代码库,容量优势明显。搜索能力天然整合Google,做需要大量网络信息的研究或者快速查证,它最接地气。响应速度通常也是三家最快。 所以现在没有什么“最好”的AI,只有最适合你手上那件事的AI。你要全功能覆盖、语音交互、商业策略分析,ChatGPT合适。你要高质量写作、精准遵循指令、复杂代码重构、长文档深度阅读,或者需要AI直接在本地文件夹里操作,Claude是首选。你要是频繁处理视频音频图像、深度依赖Google生态、需要超长上下文或者快节奏联网研究,Gemini最顺手。 按任务类型简单速查一下: 写作类(中英文、风格跟随、避免AI腔):Claude。 复杂编程、代码库重构:Claude。 多模态理解(图、视频、音频分析):Gemini。 长文档深度阅读(整本书、超长合同):Claude或者Gemini,前者连贯性强,后者容量更大。 商业策略推理、结构化问题:ChatGPT。 语音对话、口语练习:ChatGPT。 直接操作本地文件夹:Claude的Cowork。 Google生态内干活(邮件、文档、表格):Gemini。 联网研究、大量信息查证:Gemini。 产品功能集成度、一站式解决:ChatGPT。 #AI# #AIAgent#
显示更多
2026年4月全球大模型公司能力梯队全景图 AI叙事,才刚刚开始 兄弟们,看这张图。 2026年4月全球大模型公司能力梯队全景图,T1到T5,密密麻麻几十家公司。 T1梯队:OpenAI、Anthropic、Google、xAI。 估值到1万亿级别,工业级Agent闭环、GPQA推理准确率超94%、代码生成率超85%。 T2梯队:阿里、DeepSeek、Meta、智谱AI。 多模态与逻辑推理、代码生成率TOP 5、开源生态标杆。 T3梯队:Moonshot、Mistral、MiniMax、Meta、NVIDIA。 垂直行业分析、端侧部署、行业级多模态。 T4梯队:百度、微软、亚马逊、Cohere、Falcon。 政企流式推理、私有化部署、端云协同。 T5梯队:零一万物、百川智能、商汤、Stability AI。 细分场景、端侧部署、开源社区。 兄弟们有发现没有? 巨头开始全产业链的军备竞赛。 很多人问我,AI是不是已经涨完了?泡沫是不是要破了? 从T1到T5,每一层都在疯狂迭代。 OpenAI的GPQA准确率冲到94%,DeepSeek把代码生成干到TOP 5,NVIDIA靠算力垄断坐稳T3,连T5的创业公司都在细分场景里找生存空间。 这不是泡沫,这是战争。 一场关于算力、数据、模型、应用的全面战争。 而且最可怕的是:这场战争没有终点。 今天T1的技术优势,可能三个月后被T2追上。 今天的开源模型,明天就被闭源超越。 今天的算力霸主,后天可能被新的架构颠覆。 所以兄弟们,别被AI泡沫论吓跑了。 1999年互联网泡沫的时候,全世界也没几张这样的梯队图。那时候大家连商业模式都没有,纯粹炒概念。 现在呢? OpenAI月收入20亿美元,Anthropic年化收入300亿美元,NVIDIA一季度营收1300亿美元。 这些公司是真的在赚钱,真的在改变世界的运行方式。 AI叙事不是结束了,是才刚刚开始。 大模型只是第一层。 上面还有Agent、机器人、自动驾驶、科学发现、药物研发。 每一个领域都是万亿级别的市场,每一个领域都还在早期。 也意味着不要试图预测终点。 这场战争的赢家还没确定,但战场本身就在扩张。 只要战场在扩张,参与者的市值就有上升空间。 AI叙事还在继续。
显示更多
0
27
206
46
转发到社区
NVIDIA 这次真的不讲武德,直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni,处理视频快得离谱:1 小时就能搞定 10 小时的视频内容,比播放速度还快 10 倍 核心靠的是 3D 卷积技术,不再逐帧傻扫,而是成块"吞噬"数据,效率直接拉满 以后这些场景真的爽: 全天监控里找"没戴安全帽且在争吵"的人 几百个素材里精准定位"有海浪声且拍到日落"的画面 听一段机器运转视频就能诊断电机异响 几分钟帮你搞定,连 Whisper 的钱都省了 不过要注意,这哥们是个典型的偏科生 技能点全加在了多模态理解和处理效率上,想拿它写代码或者搞高难度文本推理,表现可能还不如一些轻量级纯文本模型 结论:别把它当全能程序员,但在音视频分析、海量素材打标这些实战场景里,它绝对是开源界的神 搞 AI 视频、多模态的兄弟,这个必须试试 项目地址放评论区了👇
显示更多
0
7
271
46
转发到社区
100% 本地桌面AI Agent 杀手级开源神器 这就是 UI-TARS-desktop,字节跳动开源的 31k 星爆款多模态桌面自动化代理! 一句话总结:它能看懂你的整个屏幕,用自然语言指挥鼠标键盘,帮你操作任何桌面App和浏览器,全程 100% 本地运行,隐私安全拉满,再也不用把屏幕内容丢给云端! 核心黑科技: • UI-TARS + Seed-1.5-VL 视觉语言模型实时截图理解 • 精准鼠标/键盘控制 + 实时反馈 • 自然语言指令直接搞定一切:打开 VS Code、改系统设置、刷 GitHub、浏览器全自动操作…… • 支持 Windows / macOS / Browser 跨平台 完全开源(Apache 2.0),本地跑模型,无云端、无 API 费用、无数据泄露风险。商业电脑使用代理(Anthropic Computer Use 之流)动辄几百刀/月 + 隐私隐患,这里直接白嫖本地版! 程序员、办公党、重度电脑用户、自动化爱好者的终极解放神器,几分钟部署就能把重复劳动全扔给它干! 再也不用手动点点点了 😂 用了就回不去了 😭
显示更多
你肯定需要却还没发现的工具: OmniGet。一键粘贴链接,就能从 YouTube、Twitter、TikTok、Reddit 甚至 Udemy 拉媒体,本地桌面 App,无广告无跟踪,下载就是这么丝滑。 简单想法,极致执行。内容创作者、研究者、离线党必备。再也不用被各种平台墙折腾了!
显示更多
0
3
172
26
转发到社区