ロボティクスを X で検索 — Twitter ブラウザ

2026.06.14 07:38

『検索システムでロボティクスとAIエージェントを繋ぐ』というブログを書きました。ロボティクスを勉強し始めて、ふと疑問に思いました。🤖💭 「ロボットも、AIエージェントも、業務システム（ERP/WMS）も、結局みんなバラバラのデータで喋っていて、普通にやったら噛み合わないのでは？」 - ロボットはミリ秒単位の点群やセンサー値📡 - AIエージェントは出典つきのテキスト📄 - 業務システムは時〜月スケールの構造化レコード📊 形も意味も時間スケールも違う3者を、プレイヤーが増えるたびに個別配線でつなぐのは現実的ではありません。つなぐペアは N×(N−1) で爆発してしまいます。💥 そこで、「全員が同じ検索システムにデータを投げ込み、必要なものは検索で取り出す」——検索を共通プロトコルにできないか、という実験をしてみました。🔍 MacBook 💻 と MuJoCo（シミュレータ）の中で、Gemini エージェントに端から端まで自走させ、7つの業務シナリオで検証しています。設備保全の引き継ぎ🔧、物理在庫と記録の食い違いの調停📦、そして個人的に一番おもしろかった「3台のロボットが直接通信せずに不良ロットを突き止める」🐜 シナリオ実験まで。ロボティクス始めたての方の、何かのきっかけになれば嬉しいです。ぜひ読んでみてください。🙏✨ 📝 ブログはこちら: #ロボティクス# #AIエージェント#

0

3

1

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

🏠 「文章で部屋を説明したら、ロボットがそのまま動かせる物理シーンが丸ごと出てくる」——そんなシステムが ICML 2026 Spotlight に登場しました。MITとToyota Research Instituteの研究です。タイトル: nepfaff/scenesmith（SceneSmith） URL: 🏠 概要 SceneSmithは、自然言語の説明文から、物理シミュレーションにそのまま使える屋内シーンを自動生成するエージェント型システムです。家具・壁掛けの鏡や絵画・天井のシャンデリア・机の上の小物まで、質量や慣性といった物理特性を備えた形で生成され、ロボットの学習や評価に直接使えます。 ❓ 解決する課題ロボットシミュレーション向けのリアルな屋内シーンは、これまで手作業のモデリングや面倒な配置作業が必要で、大規模な評価・学習のボトルネックでした。SceneSmithはテキストから多様で文脈的に一貫したシーンを自動生成し、この手間を解消します。 💡 方法論と提案手法シーン生成は5段階の逐次パイプラインで進みます。・フロアプラン生成（壁や床のレイアウト）・大型家具の配置・壁掛けオブジェクト（鏡、絵画、棚、時計）・天井設備（シャンデリア、ペンダントライト、シーリングファン）・操作可能な小物各ステージ後にチェックポイントを自動保存し、途中から再開・分岐できます。シーン推論やタスク分解にはVLMエージェント（GPT-5）を使います。 🎯 ユースケースと技術・3Dアセットは高品質なSAM3D（推奨）やHunyuan3D-2で生成、HSSDやObjaverseからの取得にも対応・AmbientCGのPBRマテリアルをCLIPの意味検索で適用し、ArtVIPやPartNet-Mobilityの関節付き可動オブジェクトも扱える・出力はDrake形式に加え、MuJoCoやUSD・Isaac Simへエクスポート可能 📊 注目ポイント・「ボウルから果物を見つけて皿に置く」のようなタスクから、制約付きの複数シーンを自動生成しロボット評価まで支援・151語のプロンプトからコミュニティセンターを生成し、卓球台の近くにラケットとボールを置くなど文脈推論まで実現・複数GPUへ分散し、bubblewrapでGPUを隔離してレンダリングのOOMを防止 #ロボティクス# #シーン生成#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 09:29

🏠 テキストや画像で家具を指定するだけで、スタイルの揃った3D屋内シーンを自動生成。しかもMMGDreamer比で約85%高速です。タイトル: FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow URL: 📝 概要 FlowSceneは、テキストと画像を融合したマルチモーダルなシーングラフから、高忠実度の3D屋内シーンを生成する手法です。配置・形状・テクスチャの3ブランチを、直線的なRectified Flowで同時に生成し、シーン全体でスタイルの一貫性を保ちます。 ❓ 解決する課題言語駆動の検索型はオブジェクト単位の制御やスタイル一貫性に弱く、グラフベース型は高品質なテクスチャ生成が苦手でした。FlowSceneはこの両者の弱点を同時に解消します。 💡 方法論と提案手法・ノードがテキスト記述と画像特徴を融合できるマルチモーダルグラフを入力にします（テキストのみ・画像のみ・混在に対応）・サンプリング中にノード情報を密に交換するInfoExchangeUnitで、個別条件と全体条件を両立させます・配置（3Dボックス）、形状（VQ-VAE潜在）、テクスチャ（幾何にアンカー）を独立デノイザで生成します・テクスチャは幾何を固定したまま外観だけをデノイズし、テキストのみのノードにもスタイル一貫したテクスチャを合成します 🎯 ユースケースインテリアデザインや製造での対話的なシーン設計、VR/ARコンテンツ制作、ロボティクスのシミュレーション環境づくりなどに使えます。 📊 実験結果・FID（寝室）が42.38→35.01とMMGDreamer比17.4%改善・CLIPScore 0.2386で全手法中最高、スタイル一貫性のユーザー評価も8.72/10 ・推論時間はテクスチャなしで6.83秒と、MMGDreamerの45.34秒より約85%高速・ナイトスタンドの最小マッチング距離を43.90%改善するなど、オブジェクト品質も向上しました #3DGeneration# #GenerativeAI#

0

コミュニティへ転送