マルチモーダルを X で検索

Google Japan@googlejapan

2026.06.03 11:00

先月新しく発表したマルチモーダル AI モデル【Gemini Omni】テキストや画像からだけでなく、動画の文脈や物理法則まで深く理解し、高度な動画生成・編集が可能になりました🚀 開発者やクリエイターのみなさんの活用例をご紹介します👇

0

3

269

13

コミュニティへ転送

cv usk@cv_usk

2026.06.15 15:31

1時間級の長尺動画を丸ごと理解し、ツールも検索も使いこなす——総30Bパラメータでも推論時はわずか3Bで動く、効率的なマルチモーダルモデルです🎬 タイトル: Kwai Keye-VL-2.0 Technical Report URL: 🎬 概要 Kuaishou（快手）が開発した、長尺動画理解とエージェント的知能に特化したオープンソースのマルチモーダル基盤モデルです。Mixture-of-Experts（MoE）構成を採用し、総30Bパラメータのうち推論時に活性化するのは3Bのみという効率性を実現しています。 ❓ 解決する課題時間単位（hour-level）の長い動画を扱うには、膨大な計算が必要になります。・フレーム数が多く、長距離の時間依存を捉えるのが難しい・計算制約に対処しつつ、多様なタスクで高い性能を保つことが課題でした 💡 方法論と提案手法・長文脈処理：DeepSeek Sparse Attention（DSA）をGQAベースのアーキテクチャに適応させ、256Kコンテキストのロスレス処理を実現。重要なフレームと長距離の時間依存を捉えます・インフラ：スケーラブルな動画I/O、異種のViT-LM並列化、カスタムのDSAカーネル・訓練：マルチタスクのアライメント時に生じる破滅的忘却に対処するため、Cross-Modal Multi-Teacher On-Policy Distillation（MOPD）を、Context-RL・Video-RLと組み合わせます 📊 実験結果・同規模のモデルの中で最先端（SOTA）の性能を達成しました・特に、TimeLensでの細粒度な時間的ローカライズで際立ちます・Video-MME-v2とLongVideoBenchでの長尺動画理解でも優れています・Code・Tool・Searchをまたぐマルチモーダルなエージェント協調や、自己修正能力も備えます 🌍 ユースケース長い動画の理解・検索・モデレーション、動画を扱う自律エージェントの基盤などに向きます。スパースアテンションをこの規模のマルチモーダルに初めて適用した点で、時間単位の動画処理を計算コストを抑えて現実的に回せるのが大きな強みです。 #動画理解# #マルチモーダル#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

AIエージェントの回答を「検証可能で説明できる事実」に根拠づける——ナレッジグラフ＋GraphRAG＋エージェントのフルスタックをまるごとオープンソースで提供する基盤です🕸️ タイトル: trustgraph-ai/trustgraph URL: 🕸️ 概要 AIエージェントのためのオープンソースのセマンティック・デプロイメント基盤です。コアは「コンテキストグラフ」（ドメイン知識を構造化しクエリ可能にした表現）。コンテキストグラフ・メモリ・検索・オーケストレーション・推論を、決定論的なエージェント向けにフルスタックで提供します。 ❓ 解決する課題 LLM単体では、なぜその答えになったのかを辿りにくく、ハルシネーションのリスクもあります。・エージェントの回答を、検証可能で説明可能な事実に根拠づけるのが難しい・TrustGraphはナレッジグラフ構築とGraphRAGを組み合わせ、意味的に豊かで検証可能なコンテキストにアクセスできるようにします・しかも主権的に管理できるプライベート環境で実現します 💡 主な特徴・マルチモデルDB（表・KV・ドキュメント・グラフ・ベクトル）とマルチモーダル対応、エンティティ/関係の自動抽出・DocumentRAG・GraphRAG・OntologyRAGのパイプラインと、3D GraphVizによる可視化・単一/マルチエージェント、ReAct・Plan-then-Execute・Supervisorパターン、MCP統合・Context Cores：スキーマ・グラフ・埋め込み・エビデンス・検索ポリシーを束ね、コンテキストをコードのようにバージョン管理 🌍 技術スタック / 使い方ストレージはCassandra・Qdrant・Garage、メッセージングはPulsar等、LLMはAnthropic/OpenAI/Google等＋ローカル推論（vLLM/Ollama等）に対応。npx @trustgraph/configで構成し、ポート8888のUIから利用できます。Apache 2.0ライセンスです。 #GraphRAG# #ナレッジグラフ#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 09:29

🏠 テキストや画像で家具を指定するだけで、スタイルの揃った3D屋内シーンを自動生成。しかもMMGDreamer比で約85%高速です。タイトル: FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow URL: 📝 概要 FlowSceneは、テキストと画像を融合したマルチモーダルなシーングラフから、高忠実度の3D屋内シーンを生成する手法です。配置・形状・テクスチャの3ブランチを、直線的なRectified Flowで同時に生成し、シーン全体でスタイルの一貫性を保ちます。 ❓ 解決する課題言語駆動の検索型はオブジェクト単位の制御やスタイル一貫性に弱く、グラフベース型は高品質なテクスチャ生成が苦手でした。FlowSceneはこの両者の弱点を同時に解消します。 💡 方法論と提案手法・ノードがテキスト記述と画像特徴を融合できるマルチモーダルグラフを入力にします（テキストのみ・画像のみ・混在に対応）・サンプリング中にノード情報を密に交換するInfoExchangeUnitで、個別条件と全体条件を両立させます・配置（3Dボックス）、形状（VQ-VAE潜在）、テクスチャ（幾何にアンカー）を独立デノイザで生成します・テクスチャは幾何を固定したまま外観だけをデノイズし、テキストのみのノードにもスタイル一貫したテクスチャを合成します 🎯 ユースケースインテリアデザインや製造での対話的なシーン設計、VR/ARコンテンツ制作、ロボティクスのシミュレーション環境づくりなどに使えます。 📊 実験結果・FID（寝室）が42.38→35.01とMMGDreamer比17.4%改善・CLIPScore 0.2386で全手法中最高、スタイル一貫性のユーザー評価も8.72/10 ・推論時間はテクスチャなしで6.83秒と、MMGDreamerの45.34秒より約85%高速・ナイトスタンドの最小マッチング距離を43.90%改善するなど、オブジェクト品質も向上しました #3DGeneration# #GenerativeAI#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 11:35

製造業のAI活用、つまずきの本当の原因は「目（視覚）」ではなく「知識」でした🏭 18種類の最先端モデルを徹底検証して、その事実を突き止めた研究です。タイトル: FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios URL: 🏭 概要本研究は、製造現場でマルチモーダルLLM（MLLM）がどこまで実用に耐えるかを、厳密に測るための評価フレームワーク「FORGE」を提案しています。2D画像と3D点群（point cloud）を組み合わせ、型番などの細かいドメイン情報を付与した高品質なデータセットを構築し、18種類の最先端MLLMを横断的に評価しました。 ❓ 解決する課題製造業はAI活用を急速に進めていますが、その性能を正しく測る基盤が追いついていませんでした。・製造現場の高品質なマルチモーダルデータ（実機画像や3D形状）は希少で、評価用データが不足しています・既存データセットは、型番・構造的な欠陥・組立の正誤といった製造特有の細粒度な意味情報を欠いていますそのため、現行のMLLM評価は実際の製造業の要求を反映できていませんでした。 💡 方法論と提案手法 FORGEは、現実的な条件で能力を測るために設計されています。・実世界の2D画像と3D点群を含む高品質なマルチモーダルデータで構成します・正確な型番を含む、製造特有の細粒度ドメイン意味アノテーションを付与します・評価する中核タスクは3つです・ワークピース検証（対象部品が正しいものか）・構造表面検査（表面の欠陥や状態の確認）・組立検証（組み付けが正しく行われているか） 🌍 ユースケース / 実験結果検証から、実務に直結する重要な知見が得られました。・評価したMLLM群の間で、性能に大きなギャップが存在することが判明しました・従来の想定に反し、視覚的グラウンディング（画像中の対象を特定する力）はボトルネックの本質ではありませんでした・真のボトルネックは「ドメイン固有知識の不足」であると結論づけられました・この知見を裏付けるように、コンパクトな3Bパラメータのモデルを教師ありファインチューニングしたところ、未知の製造シナリオで最大90.8%の相対精度改善を達成しました巨大な汎用モデルに頼るより、小型モデルを自社の現場データで鍛える方が、検査や品質管理で現実的な解になり得ます。 #製造業AI# #MLLM#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

cv usk@cv_usk

2026.06.17 21:57

⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。タイトル: Reliable LLM Inference at Scale URL: 📝 概要本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法・コストを「α×入力トークン＋β×出力トークン＋γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 21:37

🎼 テキスト・画像・音声・動画が入り混じる難タスクを、専門サブエージェントに分解して並列で解く——巨大単体モデルより「適材適所のチーム」が勝つことを示した研究です。タイトル: Orchestra-o1: Omnimodal Agent Orchestration URL: 💡 概要 Orchestra-o1は、複数モダリティが同時に絡むタスクを、高レベルのオーケストレーションと低レベルのツール実行に分離して解く階層型エージェント枠組みです。モダリティに応じてサブエージェントを専門化し、並列実行で効率を高めます。 ⚠️ 解決する課題既存のオーケストレーションは扱えるモダリティが限られ、テキスト・画像・音声・動画が共存して相互作用するシナリオに汎化できませんでした。 🛠 方法論と提案手法・バックエンドを「スキルベクトル＋コスト/レイテンシ」で表し、コスト考慮で選択・知覚系（画像/音声/動画解析）と行動系（検索/閲覧/コード実行）のツールを割り当て・サブゴールの潜在依存グラフを作り独立タスクを並列実行・学習はDA-GRPO：最終回答でなくステップ単位を評価し、decision quality(0.6)を重視した多次元ルーブリック報酬で意思決定を整合 📊 実験結果（独自ベンチOmniGAIA）・Orchestra-o1-GPT-5が72.8%で、2位のGemini-3-Proを10.3ポイント上回り最高・オープンソースのOrchestra-o1-8B（Qwen3-8Bベース）は30.0%でOSS最高・精度72.8%をコスト341.6で達成し、低精度な比較手法より安く高精度・難易度別はEasy80.3%/Medium75.0%/Hard56.4% #AIエージェント# #マルチモーダル#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 07:22

操作に応じて映像を生み出す「動画ワールドモデル」、その実力を公平に測る統一ベンチマークが登場しました🎮 タイトル: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation URL: 🎮 概要インタラクティブな動画ワールドモデルを包括的に評価する統一フレームワークです。289テストケース・1,058インタラクションターンで、テキスト・6-DoF姿勢・離散アクションという異なる操作方式のモデルを同じ土俵で比較できます。 ❓ 解決する課題インタラクティブなワールドモデルは急速に進歩する一方、能力を体系的に測る基準がありませんでした。既存ベンチマークは一部しかカバーできず、入力方式がモデルごとに違うため横並び比較も困難でした。 💡 方法論と提案手法評価は5つの次元で行います。・映像品質・設定への忠実性・インタラクションへの忠実性・一貫性・物理法則への整合性タスクはナビゲーション・被写体アクション・イベント編集・視点切り替えの4種。専門視覚モデルと大規模マルチモーダルモデルを組み合わせた22の自動指標を、人間の判断と照合して検証しています。 📊 実験結果最先端20モデルを分析した結果、すべての次元で強いモデルは1つも存在しないことが判明。各アプローチに特徴的な強み・弱みと、共通の難題が浮かび上がりました。 #ワールドモデル# #ベンチマーク#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 08:22

AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要視覚言語モデル（VLM）の空間推論を強化する「Imaginative Perception Tokens（IPT、想像的知覚トークン）」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します・3つのタスクを定式化：視点取得（PET）、経路追跡（PT）、多視点カウント（MVC）・約20,000例のデータセットを構築（正解・回答・評価指標つき）「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果・多視点カウント（MVC）でIPT利用により精度が3.4%向上・経路追跡（PT）でクローズドソースモデルと競争力ある性能・IPT教師あり学習はテキスト思考連鎖（CoT）を上回る・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#

0

コミュニティへ転送