0xTodd
@0x_Todd
Long BTC, Love the World 热衷研究 在 @researchnothing 琢磨策略 在 @ebunker_eth 打包区块 常驻 #Binance# 交易 https://t.co/42whA3ioyb #OKX# 钱包资深用户 https://t.co/8Aes1jx1Xn
Joined September 2016
2.7K Following    63K Followers
不知道大家看到右图什么感受,因为有人注意到 Stable Diffusion 有时会生成带有 Getty Images 水印幽灵模仿的图像——这明显表明模型未经许可吸收了 Getty 的版权照片。 更早之前的 GitHub 的Copilot 曾基于公共代码库训练,面临违反开源许可证的指控,因未提供署名,虽然上面是公共数据,但做过开发的朋友都知道,开源它并不等同于无限制的商业使用。 事实上,大型语言模型(LLMs)——是从书籍、网站、代码库、社交媒体等大量数据集中训练而成的。科技公司基于数万亿精心撰写的文字构建了盈利丰厚的 AI 模型,背后包括了难以估量的人类努力。 然而,历史上这些模型既未对原作者或艺术家给予署名,也未支付报酬。 事实上,数据归属权问题在 AI 产业内长期是个头疼问题。 行业提出了很多解决方案,例如现在 OpenAI 承认未经付费使用此类材料进行训练是不可持续的,所以它如今选择只使用有版权的数据,例如,OpenAI 已开始与 Reddit、美联社以及金融时报等达成许可协议,建立了版权数据市场。 不过这样也会带来一些垄断效果,比如说,经常用 Grok 的话,你会发现,Grok 才能独家大量采用自己平台 twitter 上的内容,而其他很多 AI 是没有个能力的。这个得益于,马斯克曾抱怨 AI 公司不当使用了 Twitter 的数据,随后限制了 API 访问并起诉了至少一名数据抓取者,包括之前很多人判断 GMGN 被封也和这事有关。 又或者是腾讯的元宝,之前聊过,只有它才有微信公众号海量的独家内容,这让腾讯元宝甚至比它采用的大模型 DeepSeek 本身更聪明,更博学。 其实除了这种思路之外,还有一种思路,这个也是目前区块链领域在做的事情。 例如 @OpenledgerHQ OpenLedger,它一直在开发一个 “归属权证明”(Proof of Attribution, POA)的模块,POA 在链上追踪数据、模型和代理的贡献,为创作者解锁流动性和变现机会。 为什么非要用到像 OL 这样的区块链协议来完成这一步呢? 这和 AI 训练的原理有关。 AI 的知识可以粗分为两大块:(1)训练时获得的知识;(2)搜索时获得的知识。 第二块现在各家 AI 做得越来越好了,大家也能看到这方面的变化,AI 已经开始旁征博引。 然而第一块,确实非常困难。 为什么呢?用于训练的海量网络数据在补偿方面是真的工作量爆炸。像 GPT-4 这样的模型,训练时使用了来自数百万网站的数千亿词汇。 如何识别并支付每一位贡献者?将单个模型训练语料库的现金奖励分配给可能数百万的作者,每人获得的奖励可能微乎其微——如果均匀分配,可能只有几分钱甚至几毫钱。最重要的是,管理开销和交易成本可能超过支付金额。 所以,基于自动化的归属权证明,必须在训练时就作为重要模块加入进去。 比如说 OpenLedger 展示的这个例子,问如果心脏停止时如何抢救的问题。 它给出的答案,即 30 次按压后给予2 次人工呼吸,展示了清晰的归属权来源,数据来自于某某医学相关文档。 注意,这不是搜索获得的知识,而是训练获得的知识。 这样做有几个好处,一来这种人命关天的情况,必须保证它一定不是 AI 幻觉。其次,这样关键内容的创作者,也非常值得获得内容补偿。 AI 行业应当实施数据归属系统,这不是惩罚措施,而是可持续增长的基石。其优点——公平补偿、道德责任和法律韧性——远胜缺点,尤其是在区块链等技术成熟以解决可行性问题的背景下。 正如一位 Twitter 上 0xVicky 说的:“归属权证明感觉像是真正 AI 问责的缺失环节。” 如果不采取行动,大量的诉讼一方面拖累 AI 的发展,另一方面也让人类创作者逐渐失去创作欲望。通过奖励创作者,AI 可以从数据白嫖者的形象转变为奖励创作的中心,让 AI 时代的利益得到上下游共享。
Show more
0
2
2
0