信頼性を X で検索 — Twitter ブラウザ

2026.06.14 04:25

言語モデルの推論ミスには「型」があった。トークンレベルの不確実性が、その“失敗のサイン”を映し出します🔬 タイトル: How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures URL: 🔬 概要言語モデルが推論にどう失敗するのかを、トークンレベルの不確実性から分析した研究です。失敗が立ち現れるパターンを特徴づけ、検出に活かせる手がかりを示します。 ❓ 解決する課題モデルは推論に失敗しますが、そのメカニズムは未解明でした。「いつ・どう失敗が検出可能になるか」を理解することが、信頼性向上に不可欠です。 💡 方法論と提案手法トークン単位の不確実性分析から、2つの失敗パターンを特定しました。・コミット型の失敗：早い段階で誤った推論経路に固執する。診断上の「コミット点」があり、それを過ぎるとトークンを足すほど検出が難しくなる・持続的な不確実性：生成全体で不確実性が徐々に蓄積し、成功と失敗の区別には全トレースが必要複数のモデル×データセットでシグナルを分析しました。 📊 実験結果・23のモデル×データセット構成で検証・反証可能な予測が23例中20例で成立（偶然を大きく上回る）・不確実性シグナルが自己整合性を補完する場面と、冗長になる場面を識別 #LLM# #信頼性#

0

コミュニティへ転送

kaochin@chinkao

2026.06.17 04:43

PMDA信頼性保証部説明会2026初夏「治験エコシステム×制度改正アップデート -GCP省令改正／Single IRB／ICH-E6(R3)／令和8年度事業の進め方-」 | 独立行政法人医薬品医療機器総合機構

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:10

AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: 🔬 概要単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動・共有レポートプールで並列探索の結果を集約（遅いタスクを待たない）・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7（競合+8）/ SuperChem 74.2（次点+12）・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント# #DeepResearch#

0

1

5

2

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.19 08:00

AIが自律性を高める時代、問われるのは「どう活用するか」だけではない。人とAIがともに制御を担う、新たなガバナンスへ。 ProVision 📖 技術の信頼性 ― AIは誰が制御するのか 🔗

0

1

12

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 21:57

⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。タイトル: Reliable LLM Inference at Scale URL: 📝 概要本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法・コストを「α×入力トークン＋β×出力トークン＋γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#

0

コミュニティへ転送

村田俊英 / Designer@kookaking

2026.06.11 04:53

📝フォントラボ内藤・大塚法律事務所欧文フォント『Heebo』醸し出すトーン：バランスの良い「信頼性と親しみやすさ」・デザインの世界観において、Heebo は「スマートで効率的、かつオープンで透明感がある」という印象を与える・カチッとしたビジネス向けの信頼感を担保しながらも、オープンなアパーチャ（文字の開口部）によって親しみやすく、風通しの良いクリアな佇まいを演出できまる。だからこそ、モダンなSaaSや、ユーザーフレンドリーな企業のアイデンティティにフィットする・Google Fonts で広く利用されている「Heebo」は、一見するとプレーンで機能的なモダン・サンセリフだが、実は「名作 Roboto の DNA」と「デジタル・モダンさ」を掛け合わせた、ユニークな背景を持つ実力派フォント・オリジナルの Roboto よりも、ストロークのクリーンさが際立っており、幾何学的で都会的なニュアンスがわずかに強められている。結果として、プレーンでありながらも「若々しく、活気があり、スタイリッシュな空気感」を画面にもたらす和文フォント『ZEN角ゴシック New』醸し出すトーン：「プロフェッショナルかつオープン」な新世代感・Heebo と ZEN角ゴシック New の組み合わせは、現代のUIやWebサイトにおいて、「一歩先を行く都会的なシャープさ」と「日常に寄り添う親しみやすさ」を両立させる、クリーンでオープンなモダン・オープン・システム・日本のオープンで先進的な企業が目指すような、「信頼できるプロフェッショナルでありながら、誰に対しても優しくオープンである」という空気感を画面全体に漂わせることができる・ユーザーに対して「ここは使いやすく、親切で、洗練された場所だ」というポジティブな安心感を与えるため、モダンなB2B/B2C SaaS、ウェルビーイングや教育系のデジタルサービス、あるいは透明性をアピールしたいモダンコーポレートのWebサイトにフィットする

0

23

4

コミュニティへ転送

ASUS JAPAN@ASUSJapan

2026.06.18 06:53

ASUS ExpertBook シリーズは、優れた携帯性と高い堅牢性、そして先進のAI機能を兼ね備えた、ASUSのビジネスノートPCシリーズです💻 洗練されたデザインと信頼性の高いパフォーマンスを実現し、多様化するビジネス環境に柔軟に対応✨

0

7

1

コミュニティへ転送

Starlink@Starlink

2026.05.18 03:35

ストリーミング、ビデオ通話、オンラインゲームなどを楽しめる、信頼性の高い高速インターネットに接続しましょう。オンラインでの注文手続きは数分で完了します。

0

25

1.1K

104

コミュニティへ転送

cv usk@cv_usk

2026.06.17 02:49

# AIエージェントをソフトウェアに組み込むプラクティス # 階層化メモリ 🎯 「全部コンテキストに詰め込む」設計は、ウィンドウ溢れとハルシネーションの永続化を同時に引き起こします。メモリを3層に分けるだけで、コンテキスト効率と記憶の信頼性を両立できます。 🔥 解決する課題エージェントが複数ターンに跨がるタスクを扱うとき、すべての情報をコンテキストウィンドウに詰め込む「フラット記憶」では2つの問題が同時に起きます。会話履歴・ユーザ属性・中間結果・外部知識が混在するとウィンドウが溢れ、古い情報から押し出されて文脈が断絶します。さらにLLMが生成した推測をそのまま永続化すると、ハルシネーションが長期記憶に定着し、以降のセッションを汚染し続けます。 💡 提案パターンメモリを作業記憶（ターン内の中間状態）・短期記憶（セッションストア、TTL付き）・長期記憶（ベクトルDB/KVS）の3層に分離します。作業記憶は自由に読み書きし、コンテキストリセットで消えます。短期記憶には信頼度タグを付与し、ユーザ発話由来は高信頼、LLM推測由来は低信頼とマークします。長期記憶への昇格には反復確認やユーザ承認を要求し、ハルシネーションの永続化を防ぎます。failure_costが高い領域ほど昇格閾値を厳しくし、TTLを長めにとって安全側に寄せます。 ✅ 選定条件使うとき： - 複数セッションにわたって情報を引き継ぐ必要がある - 中間結果の量がコンテキストウィンドウの30%を超える見込みがある - 確定事実と推測の区別が必要で、誤った記憶の波及影響が大きい使わないとき： - 1ショットで完結しセッション間の引継ぎが不要な場合 - コンテキストウィンドウに全情報が収まる場合 - メモリの書込制御だけが課題で、階層分離自体は不要な場合 ⚠️ 落とし穴 - 作業記憶と短期記憶の境界が曖昧になりがちです。外部ストアへの書込を境界線にし、LLMの内部状態に頼らないでください - 長期記憶のエントリ数が増えると無関係な記憶がコンテキストに混入し、ハルシネーションの原因になります - マルチエージェント構成で各Workerが直接長期記憶に書き込むと整合性が崩れます。長期記憶はSupervisorが一元管理しましょう 🔧 実装方針 - 作業記憶（dict/インメモリ）・短期記憶（Redis等TTL付きセッションストア）・長期記憶（ベクトルDB）の3層を明確に分離し、外部ストアへの書込を境界線とします - recall時はコンテキスト予算内で3層から関連情報を想起し、関連度と信頼度でランク付けして注入量を制御します - 短期→長期への昇格には信頼度スコアの閾値チェックと承認状態の検査を設け、未検証情報の永続化を防ぎます - 記憶種別ごとにTTLを設計し（リアルタイムデータは分単位、ユーザ嗜好は週単位、不変属性は無期限）、failure_costが高いほど短めに設定します #AIエージェント# #ソフトウェアアーキテクチャ#

0

コミュニティへ転送