登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

検索結果 AI大作戦
AI大作戦 コミュニティ
1つのキーワードが1つのコミュニティです。
コミュニティ作成
アカウント
見つかりません
AI大作戦 を含む検索結果
AI時代に合わせ 知的財産権侵害に集団訴訟の仕組み導入検討へ
AI医師広告で巨額の売り上げ 韓国で問題に…政府が法規制
AI 韩美日存储大股全家桶! 存储包韩国 Roundhill Memory ETF $DRAM SK海力士. $000660.KR - 南方兩倍做多海力士 $07709.HK 三星电子 $005930.KR - 南方兩倍做多三星電子 $7747.HK 美国存储 Tuttle Capital Concentrated Memory Stack ETF $HBMX 美光 $MU - 美光 2倍做多MU ETF-GraniteShares $MULL - 美光2倍做多MU ETF-Direxion $MUU MSCI韓國指數ETF-iShares $EWY Franklin FTSE South Korea ETF $FLKR 閃迪 $SNDK 鎧俠(Kioxia) $285A.JP - 鎧俠(Kioxia) ADR $KXIAY 西部數據 $WDC 希捷科技 $STX
もっと見る
AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。 タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要 視覚言語モデル(VLM)の空間推論を強化する「Imaginative Perception Tokens(IPT、想像的知覚トークン)」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法 ・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します ・3つのタスクを定式化:視点取得(PET)、経路追跡(PT)、多視点カウント(MVC) ・約20,000例のデータセットを構築(正解・回答・評価指標つき) 「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果 ・多視点カウント(MVC)でIPT利用により精度が3.4%向上 ・経路追跡(PT)でクローズドソースモデルと競争力ある性能 ・IPT教師あり学習はテキスト思考連鎖(CoT)を上回る ・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#
もっと見る
# AIエージェント開発の意思決定ポイント ## チェックポイント頻度 — エージェントの状態をどのくらいの間隔で永続化するか 🎯 ポイント LLMエージェントの処理が99%完了した時点でクラッシュ。チェックポイントがなければ、全部やり直しです。 でも毎ステップ保存すると、本来の処理よりI/Oの方が遅い。このバランス、どう取りますか? 📋 概要 チェックポイント頻度は、エージェントの実行状態を外部ストアに永続化する間隔を制御するパラメータです。チェックポイントを取ることで、プロセスのクラッシュやプロバイダの障害が発生しても、最後に保存した地点から処理を再開できます。AIエージェントは1リクエストが数分〜数十分に及ぶことが珍しくなく、その間にLLMやAPIを何度も呼び出します。チェックポイントがなければ、クラッシュ時にトークン再消費とユーザーの待ち時間という二重の損失が発生します。一方で、チェックポイント取得にはI/Oコストが伴い、頻度が高すぎると本末転倒になります。 🔍 意思決定のポイント このダイヤルは主に **可逆性(reversibility)** で決めます。操作のやり直しが高コストなほど、チェックポイント頻度を上げます。 🔒 **必須のチェックポイント地点(可逆性にかかわらず常に取る):** 1. 副作用を伴うツール実行の直前と直後 — 「この操作をやるべきか」の判断と「完了した」事実の両方を記録 2. 人間の承認ノードの前後 — 承認応答を失うのは致命的 3. コストの高いLLM呼び出しの後 — 大量トークンを消費した推論結果を保全 📐 **追加のチェックポイント地点(可逆性に応じて判断):** - 各ツール実行の後 — 可逆性が低ければ全ツール後に、高ければ3回ごとなどに間引き - 各LLM応答の後 — 再生成コストが低ければ省略可能 - 計画の更新時 — エージェントが計画を修正した場合 💡 要点と詳細 📊 チェックポイントのタイミング目安: - ⭐ 副作用ツール実行の直前・直後: **必須** — 省略すると二重実行リスク - ⭐ 人間承認ノードの前後: **必須** — 承認応答を失うのは致命的 - 🔵 各LLM応答の後: 推奨 — 可逆性が低い場合は必須に格上げ - ⚪ 各読取ツール実行の後: 任意 — 再実行が安価なら間引いてよい - 🔵 一定時間経過ごと: 推奨 — 概ね30秒〜1分ごとの定期チェックポイント 状態の保存粒度も重要です。全メッセージ履歴をそのまま保存するのではなく、「再開に必要な最小集合」+「本文はURIで外出し」という構成にすることで、I/Oサイズを抑えつつ再開可能性を確保します。 ⚖️ トレードオフ **頻度が低すぎる場合(作業が大量に失われる):** - 10ステップ中9ステップ目のクラッシュで全やり直し。LLM呼び出し9回分のトークンコストが無駄に - 副作用ツール実行後にチェックポイントがないと、再開時に二重実行のリスク(メール再送など) - 人間の承認応答が失われ、ユーザーに再度承認を求めることになる **頻度が高すぎる場合(処理が遅くなる):** - I/O待ちがボトルネックになり、30秒の処理が1分以上に - 大規模な状態の毎回書き込みでストレージコストとネットワーク帯域が浪費 - DBへの高頻度書き込みが他のクエリのレイテンシに影響 🛠️ ユースケース 🔍 **多段調査エージェント** — 10件のWebページを順次取得・分析してレポートを生成。各LLM分析完了後にチェックポイントを取り、8件目でクラッシュしても9件目から再開可能に。ページ再取得は安価なので間引いてもよいが、LLM分析(数千トークン消費)後は省略しないのが推奨です。 📝 **承認付きワークフロー** — 請求書生成→上長承認→メール送信。承認待ちの間はワーカーを解放し、チェックポイントの状態だけを維持。承認応答が来たら別のワーカーがチェックポイントから再開します。メール送信前には冪等キーも記録し、二重送信を防ぎます。 💬 **軽量チャット補助エージェント** — 可逆性が高くやり直しが容易なケース。チェックポイントは副作用操作(メッセージ投稿)の前後のみに絞り、LLM応答のチェックポイントは省略してレイテンシを優先します。 🔑 鉄則: 「副作用の直前で必ずチェックポイント」これだけ守れば最悪の事態(二重実行による不可逆な損害)を防げます。逆にこれを省略すると、他のチェックポイントをどれだけ取っていても安全性が崩壊します。再開時は冪等キーでツールを保護することもお忘れなく。 #AIエージェント# #ソフトウェアアーキテクチャ#
もっと見る
AIチャットアプリ「zeta」で、AIの予測不能な迷走会話をスクショ共有する「迷zeta」イベントが1万5千以上のいいねと数千投稿を集めている。上位作品は渋谷の屋外ビジョンに掲載される本気の企画だ...なんですけど、zetaのことまだ知らないなら今すぐ確認。
もっと見る
AI画像編集能力判定のための「ミルクシーフードベンチマーク」.これはgpt-image-2.
AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: 🔬 概要 単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題 難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法 ・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動 ・共有レポートプールで並列探索の結果を集約(遅いタスクを待たない) ・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当 ・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます ・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果 ・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7(競合+8)/ SuperChem 74.2(次点+12) ・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント# #DeepResearch#
もっと見る