７つの課題を X で検索 — Twitter ブラウザ

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

cv usk@cv_usk

5hours ago

🔍 「脚に赤い点がある」— でもそれを医学用語で検索できますか？ AIが肌の悩みの“理解”をどこまで助けられるか、Googleが2,345人規模で検証しました。タイトル: Research into how AI can help users understand skin conditions URL: 💡 概要成人の半数以上が健康情報を検索し、3人に1人がAIに頼る時代。Google Researchは、AIによる皮膚疾患の「診断精度」ではなく、AIが一般の人の意思決定をどこまで助けられるかを2つのユーザー研究で検証しました。 🩺 解決する課題一般の人は「赤い点」には気づけても「触知性紫斑」という適切な用語で検索できません。情報にアクセスできることと、正しく理解して次の行動を決められることは別問題、という溝に切り込んでいます。 🧪 方法論実際のケース画像と病歴を使い、2,345人を3群にランダム割付。通常検索の対照群、AIが3〜7個の候補を画像付きで提示するAI群、候補を皮膚科医が検証した正解にしたWizard of Oz群を比較しました。さらに110人の地域住民を対象に、4言語対応アプリで実地検証も実施しています。 📊 実験結果疾患の特定精度はAI群23%で対照群8%のほぼ3倍に。地域研究では言い当てる能力が260%向上し、臨床医の92%がアプリを役立つと評価しました。一方で「受診すべきか自宅ケアか」の判断精度はほぼ改善せず、AI利用者は緊急度を低く見積もる傾向も。特定できることと適切に行動できることは別、という学びが残りました。 #AI# #ヘルステック#

0

コミュニティへ転送

杉並区長・岸本さとこ事務所@satokokishi2022

2026.06.08 09:00

【ブログ更新！】区民が主役。岸本さとこ大決起集会を開催しました 6月7日（日）19時から、セシオン杉並にて「岸本さとこ大決起集会」を開催しました。雨の降る日曜日の夜にもかかわらず、会場は超満員。ロビーにも入りきれないほどの方が来てくださいました。会場に入れなかったみなさま、本当に申し訳ありませんでした。雨の中、足を運んでくださったすべてのみなさまに、心からお礼を申し上げます。集会は、8名の区民によるリレートークからスタートしました。小学生の保護者、訪問介護のケアワーカー、まちの塗装屋さん、若手建築家など様々な立場から、この4年間の杉並区政について語っていただきました。その言葉の中には、子どもの権利、介護の現場、気候変動、地域経済、ジェンダー平等、まちづくり、多文化共生など、杉並が向き合うさまざまな課題がありました。私は、この時間こそが集会の大きな価値だったと思っています。政治家が語るだけでは見えてこない現実があります。地域で暮らし、働き、子育てや介護を担う人たちの声こそが、よりよい政策をつくるための出発点です。私のスピーチでは、4年前の話からはじめました。 187票差という僅差での当選。区長選挙の投票率は37.5％で、6割以上の人が選挙に行っていませんでした。だからこそ私は、この結果に奢ることなく、謙虚に受け止めようと思いました。支持してくださった方への責任を果たしながら、より大きな信頼を一歩一歩積み重ねていく。その思いで区政に向き合ってきました。道は険しかったです。今も険しいです。それでも、辛いことより楽しいことの方が多く、うれしいことの方がずっと多い4年間でした。また、私が掲げている「杉並から選挙をアップデート！」についてもお話ししました。私は、選挙をお金や動員の力ではなく、市民一人ひとりの参加と共感によってつくるものにしたいと考えています。そのため、YouTube広告をはじめとするSNS広告は使いません。皆さんと共に、共感から広げていく、一人ひとりの力を信じているからです。その代わり、政策をできるだけわかりやすく伝えます。SNSやYouTubeで発信し、それを広げていただく。友人に伝えていただく。その一つひとつの行動が力になります。お金の力ではなく、共感の力で広がる選挙を、杉並からつくっていきたいと思っています。昨日の集会で、あらためて強く感じたことがあります。それは、この4年間で積み重ねてきたものは、政策や事業だけではなかったということです。区民のみなさんとの信頼です。私は、選挙と選挙のあいだの民主主義を大切にしてきました。選挙はゴールではありません。より良い社会をみんなでつくっていくための通過点です。参加者の方から、「岸本さんよりも区民の方がお話ししている時間が多いのではと思うくらい、対話にあふれた、岸本さんらしいやさしい会でした」という感想をいただきました。私は、その言葉をとてもうれしく受け止めています。政治家が主役の選挙ではなく、区民が主役の選挙。お金や組織の力ではなく、一人ひとりの共感と参加によって広がる選挙。そして選挙が終わった後も、みんなで地域の未来をつくっていく民主主義。そんな選挙を、みなさんと一緒につくっていきたいと思います。これはきれいごとではありません。私は、きれいなことだと思っています。昨日会場に来てくださったみなさま、そして日頃から支えてくださっているみなさまに、心から感謝します。集会の様子は、近日中に動画の一部を共有する予定です。ぜひご覧ください。引き続き、よろしくお願いいたします。杉並区長　岸本さとこ（岸本聡子） #杉並区長# #岸本さとこ# #岸本聡子# #岸本さとこ大決起集会#

0

19

1.3K

543

コミュニティへ転送