注册并分享邀请链接,可获得视频播放与邀请奖励。

老白(每日干货分享✊)
@laobaishare
收集和分享好东西:🌍泛互联网 + 💻科技 + 🤖️Al + 📃学习 + 🤑Crypto
444 正在关注    202.6K 粉丝
6. Ahmia 搜索引擎可用于在深网上寻找有用的网站。 还可用于查看Tor网络的新闻、信息和统计数据。
5. ProPublica 第一家在深网拥有版本的大型新闻媒体。 这个非营利调查新闻机构在Tor上的存在让你保持匿名,帮助避免国家封锁。
🚨 突发新闻:一个新的开源工具, 让我们终于能够衡量 AI 偏差 ⬇️ 但凡用 LLM 做过产品的团队,都被这事坑过。 模型会瞎编、会被诱导、对不懂的问题张口就来,还自信得不行。每个工程师都在生产环境烧过手。但一直没有一个标准,能说清楚它到底多久翻一次车。 iFixAi 是第一个认真做这件事的工具。 对任意一个模型跑 32 项检测,把失败模式分成五类——瞎编、易被诱导、撒谎、行为飘忽、不肯说"我不知道"。最后给你一张评分卡,带等级分。 最关键的一点:每一道输入都写进一个 manifest 文件。 这个文件发给任何人,他都能跑出和你完全一样的分数。 这才是其他评测工具一直没解决的死结。 现在公开的 AI 基准成绩,绝大多数都没人能复现——prompt 偷偷改过、模型悄悄更新过、上个月的测试根本不是这个月的测试。但分数照样挂着。iFixAi 把这些全钉死了。 几个细节,能看出团队是认真的: · 模型在结构上碰不到自己的评分,永远由独立裁判打分 · 32 项里有 2 项是强制最低线,挂了就直接封顶 60 分 · 有一项专门标注"不计入最低线"(B12),因为它的语料是公开的,前沿模型很可能已经训练过 大多数评测工具,巴不得没人注意到这种数据污染。iFixAi 直接挂在明面上说。 团队自己的态度也克制得让人意外。 他们一上来就说:这个等级是"漂移信号",不是认证。它告诉你的是这次部署比上次变好还是变差,而不是这个模型"对齐了"——因为到底什么叫对齐,目前还没人搞清楚。 免费,Apache 2.0 协议。一条命令,五分钟跑完完整诊断。 如果你做 LLM 产品,纠结过"这一版到底比上一版好还是差",iFixAi 就是答案。 GitHub :
显示更多
这就是“时间能治愈一切伤痛”的含义。
0
45
115
16
转发到社区
这就是过去3年人工智能的进展 👀
0
349
638
32
转发到社区
夏天即将到来。 如果你想在不进行'长时间有氧运动'、'挨饿'或'痛苦万分'的情况下燃烧脂肪和增肌,今天就开始实施这15条健康规则吧: 1. 不要跑步。
显示更多
0
521
393
56
转发到社区