声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:谭宵寒,授权站长之家转载发布。
老牌中文社区天涯已经住进“ICU”整整一年,破产看来已经注定,但最近一家美国同行搭上AI 快车的消息,又给天涯带来了一丝希望。
去年4月,因[]拖缴数据机房[]费用,天涯社[]区遭“断网”[]。
症结在缺钱。[]天涯社区称,[]危机来自于近[]几年资金流动[]性困难加剧,[]电信IDC欠[]费,导致天涯[]社区暂停访问[]。
再听到天涯的[]消息,是在今[]年2月底,全[]国企业破产重[]整案件信息网[]上公开一条“[]天涯社区网络[]科技股份有限[]公司被申请破[]产审查”的信[]息。
尽管天涯方面[]否认即将破产[]的传闻,但天[]涯重见天日的[]可能性,到底[]是更加渺茫了[]。
在美国,一家[]式微的老牌内[]容平台,却依[]靠AI的浪潮[]找到了副业,[]吃下了热钱—[]—第三方图片[]托管平台Ph[]otobuc[]ket,一度[]拥有7000[]万用户,占据[]美国在线照片[]市场的近一半[]份额。如今,[]Photob[]ucket辉[]煌不再,只有[]约200万人[]还在使用它。[]
正所谓“瘦死[]的骆驼比马大[]”,已经被大[]部分人遗忘的[]Photob[]ucket有[]之前多年的积[]累,依然坐拥[]上百亿照片和[]视频。而这,[]正是患上“数[]据饥渴症”的[]AI公司最需[]要的。
在AI热潮下,不断有公司找上门来。以正在进行的谈判来粗略估计,Photobucket手里掌握的内容可能价值数十亿美元。
有钱但缺数据的AI公司,遇上没钱但积累了海量内容的老牌社区,不交易一下才奇怪。
A
Photob[]ucket正[]在与AI公司[]谈交易的消息[],是由路透社[]曝出的。
有意思的是,报道中有一句话在后续编辑中被删除:“公司预计,其第一季度营业陆润将增长10倍,达到近49亿美元。”
49亿美元是[]什么概念?
Photob[]ucket作[]为一家图片托[]管网站,刚开[]始是免费的。[]在千禧年前后[],互联网用户[]激增,人们或[]为了记录生活[],或为了分享[],乐于将照片[]上传到一个专[]门的网站。而[]且,在Pho[]tobuck[]et上传了图[]片后,人们还[]可以在其他网[]站如MySp[]ace直接嵌[]入,省得反复[]上传。一些卖[]家也会在eB[]ay或亚马逊[]使用Phot[]obucke[]t托管的图片[]。
用这种方式,巅峰时期的Photobucket一度占据了美国互联网流量的2%。
由免费转向付[]费,似乎是P[]hotobu[]cket的必[]经之路。不过[],Photo[]bucket[]有点太心急了[]。2017年[]时,Phot[]obucke[]t突然将第三[]方显示变为每[]年399美元[]的付费订阅服[]务。此举并没[]有提前的充分[]预警,很多用[]户发现自己在[]其他网站嵌入[]的Photo[]bucket[]图片都无法展[]示,变成了“[]付费以解锁”[]的提示。
要知道,Ph[]otobuc[]ket当时已[]经有1亿注册[]用户,有约6[]000万第三[]方网站的图片[]在此次“升级[]”下无法正常[]显示。在争议[]之下,Pho[]tobuck[]et次年将年[]订阅模式改为[]可月付的模式[],并沿用至今[]。
Photob[]ucket也[]就此走上下坡[]路。后续几年[],Photp[]bucket[]又经历了服务[]中心断电导致[]服务中断、隐[]私泄露等“意[]外”,渐渐从[]备受欢迎的图[]片网站变成了[]互联网边角料[]产品。公司规[]模也从鼎盛时[]期的120名[]员工缩水到了[]40人。
目前Photobucket网站提供的付费计划中,最贵的每月收取8美元。以最新报道透露的200万用户在使用Photobucket计算,哪怕他们全部月付8美元,每年也仅能贡献1.9亿美元。而且这对Photobucket来说只是收入,没有剔除存储、维护、运营等的各项成本。
虽然Photobucket在过去二十年损失了不少用户,但除非用户注销,它一直保留着用户的图片。即便是在不再支持免费账户的情况下,Photobucket也明确通知用户:你的照片还在,只需要现在开始付费,就能重新看到它们。
不断有已经弃[]用Photo[]bucket[]的用户在社交[]媒体上吐槽,[]称自己频繁收[]到Photo[]bucket[]“求复合”的[]邮件,已经不[]堪其扰。
既然图片都在,海量的内容还存储在服务器上,为什么不用它们赚上一笔?将平台内容授权给AI公司,获得49亿美元,对Photobucket来说可以算是一笔巨款了。
B
为什么AI公[]司会找上“明[]日黄花”Ph[]otobuc[]ket?
答案很简单,[]太缺数据了。[]以OpenA[]I的GPT系[]列模型为例,[]GPT-3使[]用了3000[]亿的toke[]n,GPT-[]4使用了12[]万亿的tok[]en。而已经[]在路上的GP[]T-5所需的[]token量[]在60万亿到[]100万亿。[]
“规模即一切[]”成为AI的[]战斗口号。霍[]普金斯大学卢[]纶物理学家贾[]里德·卡普兰[](Jared[] Kaplan[])在2020[]年发表了一篇[]关于AI的开[]创性论文,其[]表明训练数据[]越多,大型语[]言模型的表现[]越好,就像学[]生通过阅读更[]多书籍来学习[]更多知识一样[]。
互联网上公开[]可用的数据在[]大模型面前并[]不是取之不尽[]的。据人工智[]能研究机构E[]poch估计[],2026年[]所有高质量可[]用数据就有可[]能被耗尽,互[]联网生产数据[]的速度有可能[]比不上不断膨[]胀的大模型的[]消耗速度。
“数据饥渴”的AI公司获取数据的路径,总结起来就是:免费的,直接用;自家的,直接用且不给别人用;可以付费的,付费;付费也买不到的,必要时想想办法弄到手。
近日,《纽约[]时报》报道O[]penAI曾[]在训练GPT[]-4时利用了[]谷歌旗下Yo[]uTube的[]内容。直接取[]用肯定不行,[]谷歌不让啊。[]于是Open[]AI计上心头[],创建了一个[]名为Whis[]per的语音[]识别工具,将[]超过100万[]小时的You[]Tube视频[]转录,然后再[]喂给模型。
此前,尚未开[]放给大众的文[]本到视频工具[]Sora也引[]起了外界怀疑[]。在一次采访[]中,Open[]AI的首席技[]术官米拉·穆[]拉蒂(Mir[]a Murati[])没有正面回[]应“是否使用[]YouTub[]e、Inst[]agram、[]Facebo[]ok等平台的[]内容训练So[]ra”这一问[]题,她听到该[]问题时复杂的[]表情甚至成为[]了互联网梗图[]。
YouTub[]e首席执行官[]尼尔·莫汉([]Neal Mohan)[]在4月5日对[]此表态,称目[]前没有证据表[]明OpenA[]I用了You[]Tube视频[]训练Sora[],但如果Op[]enAI果真[]这么做了,那[]“明显违反”[]了YouTu[]be平台的使[]用条款。
要是以为Yo[]uTube是[]在努力保护用[]户(或说创作[]者),可能有[]点天真。莫汉[]在采访中也提[]到,谷歌确实[]用了YouT[]ube上的一[]些内容训练了[]旗下大模型G[]emini。[]
另一边,巨头[]Meta的马[]克·扎克伯格[](Mark Zucker[]berg)也[]将平台数据视[]为自己的竞争[]优势。扎克伯[]格曾直言:“[]我们战术的下[]一个关键部分[]是从独特的数[]据中学习。”[]“在Face[]book和I[]nstagr[]am上,有数[]千亿张公开分[]享的图片和数[]百亿段公开视[]频。”
在去年怒喷微[]软,威胁要起[]诉其使用X的[]数据训练AI[]的埃隆·马斯[]克(Elon[] Musk),[]也悄悄更新了[]X的隐私政策[],表示会使用[]社交媒体数据[]来训练机器学[]习和AI模型[]。在网友的追[]问下,马斯克[]干脆承认:“[]只会用公开信[]息(训练),[]不会用私信和[]任何私人数据[]。”
有海量UGC[](用户生成内[]容)且自己也[]做AI的公司[],数据是不卖[]的,只给自己[]用。其他AI[]公司要么就铤[]而走险偷偷用[],要么就要去[]找那些有内容[]但愿意出售的[]公司。
Shutte[]rStock[]和Reddi[]t都是活跃在[]数据交易场上[]的“大卖家”[]。
图片网站Sh[]utterS[]tock几乎[]和所有叫得上[]名字的AI大[]公司都合作了[]个遍,包括但[]不限于Ope[]nAI、Me[]ta、谷歌、[]亚马逊,达成[]使用其图片训[]练AI的协议[]。每笔交易的[]最初价格从2[]000万美元[]到5000万[]美元不等,而[]且后续还扩大[]了交易规模。[]
随着AI浪潮[]翻涌,“美国[]贴吧”Red[]dit意识到[]自己的数据对[]AI公司至关[]重要,且非常[]宝贵。去年开[]始,Redd[]it开始与一[]系列AIGC[]领军企业展开[]谈判,商议数[]据付费使用的[]问题。说白了[]就是,不付费[]要授权,休想[]用这一头部美[]国贴吧的内容[]喂AI了。谈[]判陆续有了进[]展,如今年2[]月,Redd[]it就与谷歌[]达成协议,授[]权数据给其训[]练AI,合同[]价值约每年6[]000万美元[]。
在这样的态势[]下,Phot[]obucke[]t这样的老牌[]社区被盯上只[]是时间问题。[]
Photob[]ucket的[]首席执行官泰[]德·伦纳德([]Ted Leonar[]d)表示,他[]正在和多家科[]技公司谈判,[]涉及130亿[]个内容(照片[]和视频)的授[]权。每张照片[]的授权价格在[]5美分到1美[]元,视频则为[]1美元以上。[]
一位买家告诉[]伦纳德,他们[]想要超过10[]亿个视频,比[]Photob[]ucket拥[]有的还多。以[]现在的谈判来[]看,Phot[]obucke[]t坐拥数十亿[]美元的内容。[]
机智的Photoshop在去年10月更新了其用户条款,授予平台“不受限制的权利”,可以出售任何上传的内容,用于培训AI系统。
伦纳德甚至表示,有望用数据授权替代公司的广告销售业务。
C
繁忙的数据交[]易市场,也许[]给式微甚至已[]经死亡的UG[]C平台提供了[]一个“副业”[]。
天涯究竟积累了多少内容不可知,几个数据可以从侧面一窥其规模。巅峰时期,天涯的日访问量曾达到2000万。
在中文社区的黄金时代,流行着“全民话题,天涯制造”的说法。众多初代网红诞生于这里,如芙蓉姐姐、极品小月月、犀利哥等。众多畅销书孵化于此处,如《鬼吹灯》《明朝那些事儿》《东北往事:黑道风云二十年》《法医秦明》等等。
中文论坛对A[]I训练的用处[]也正在被关注[]。
一项研究显示[],百度贴吧的[]“弱智吧”显[]现出不俗的数[]据训练效果。[]
这项研究由中[]科院深圳先进[]技术研究院、[]中科院自动化[]研究所、滑铁[]卢大学等众多[]高校、研究机[]构联合完成,[]提出了一个高[]质量的中文指[]导优化数据集[]。研究中用中[]文指导优化数[]据集训练了不[]同类型和大小[]的模型,探讨[]了各种数据源[]对模型性能的[]影响。在测试[]中,百度贴吧[]“弱智吧”的[]得分颇高。
“弱智吧”聚[]集了300个[]成员,并不是[]真的和智力障[]碍相关,而是[]“假装弱智”[],发表一些烧[]脑言论。如“[]如果高中的入[]学率不高,为[]什么不直接录[]用大学生”,[]或“为什么我[]爸妈结婚的时[]候没有邀请我[]”。研究人员[]猜测,可能是[]“弱智吧”的[]问题增强了A[]I的逻辑推理[]能力。
这是全民创作和AI之间碰撞出的火花,社区内容有时能贡献意想不到的惊喜。
不过,横在社[]区内容和AI[]之间的,还有[]用户。
就像Phot[]obucke[]t忙不迭地更[]新用户条款,[]中文互联网的[]“内容确权”[]也一直是个问[]题。
一方面,中文互联网平台早已形成了将授权条款埋入用户条款里的习惯。目前所能查到的天涯2017年的《隐私和版权》协议中写明:“用户发表并将其上传到本网站的任何内容,本社区在全世界范围内不限形式和载体地享有永久的、不可撤销的、免费的、非独家的使用权和转授权的权利,包括但不限于修改、复制、发行、展览、改编、汇编、出版、翻译、信息网络传播、广播、表演和在创作及著作权法等法规确定的其他权利。”
天涯“断电”后,网络上售卖“天涯神帖合集”的生意走俏。天涯曾在重启公告中称,关注到天涯神贴在各大平台大受欢迎,“计划从现在开始发展一批高级会员,在回复访问后的天涯社区平台上开辟天涯神贴付费专区”。
在重启公告的[]最后,天涯表[]示,“无论是[]预购一个‘9[]9元天涯神贴[]服务’,还是[]预购一个‘2[]99元一对一[]数据下载服务[]’,都是对天[]涯重启非常重[]要的助力”。[]文末,天涯附[]上了购买二维[]码。
另一方面,平台是否就此有权将用户内容授权给其他公司以训练AI,还有待商榷。
用户对此颇为[]警惕。
在去年,小红[]书曾更新用户[]条款,在“用[]户内容及信息[]授权”中写着[]“您授予xx[]x公司免费的[]、不可撤销的[]、非排他的、[]无地域限制的[]许可使用”,[]并表示“上述[]许可包括使用[]、复制和展示[]用户内容中受[]保护的个人形[]象、肖像、姓[]名、商标、品[]牌、标识及其[]他营销推广素[]材、物料的权[]利和许可”,[]加之彼时恰有[]插画师质疑A[]I工具涉嫌抄[]袭,而引发了[]插画师对平台[]用自己上传的[]作品训练AI[]的担忧,不少[]插画师公开抵[]制,并宣布在[]该平台停更。[]
如今Phot[]oBucke[]t首席执行官[]接受采访,并[]坦诚平台与A[]I公司进行授[]权协议,但并[]不是每个AI[]公司都对其内[]容放心。
Defene[]d.ai的首[]席执行官布加[]拉(Dani[]ela Braga)[]表示,她避免[]从Photo[]bucket[]这样的平台公[]司获取内容,[]而更喜欢从创[]作这些照片的[]原作者那里获[]取授权:“我[]认为这非常危[]险。”“如果[]有一些AI生[]成的东西类似[]于某个从未点[]头许可的人的[]照片,那就有[]麻烦了。”
参考资料:
1、量子位:《弱智吧竟成最佳中文AI训练数据?中科院等:8项测试第一,远超知乎豆瓣小红书》
2、每日经济新闻:《天涯社区重启时间表公布 谁会花99元买“天涯神贴服务”?》
3、科技狐:《成立23年,承载无数人记忆的社区关闭了……》
4、钛媒体:《钛媒体独家|天涯社区App“复活”,上线应用商店但无法正常使用,公司正筹资1000万元》
蓝鲸财经:《情怀不值钱?“破产迷局”后“天涯重启”延期》
评论区
提示:本文章评论功能已关闭