声明:本文来自于微信公众号 腾讯研究院(ID:cyberlawrc),作者:闫德利,授权站长之家转载发布。
闫德利腾讯研究院资深专家
炼大模型,大炼模型
近年是全球风险投资的低潮,生成式AI(GenAI)却逆市而起,去年的融资笔数和融资额分别增长66%和400%(来源:CB Insight,如下图所示),融资额高居所有细分领域第一位(来源:Dealroom.co)。去年美国前5大风险投资中,OpenAI、Anthropic(2笔)和Inflection AI三家GenAI公司占据了4个,融资额分别高达100亿美元、40亿美元、20亿美元和13亿美元,主要投资者是微软、亚马逊、谷歌和英伟达等巨头(来源:Crunchbase)。
2019-2023年全球GenAI的融资笔数和融资额
当下的Gen[]AI热潮起源[]于美国产业界[],实际上美国[]政府也高度重[]视,提出了“[]确保继续保持[]领导地位”的[]战略目标。在[]奥巴马时期,[]美国白宫发布[]《国家人工智[]能研发战略计[]划》(201[]6),特朗普[]时期(201[]9)和拜登时[]期(2023[])分别对其进[]行了更新,从[]而形成了9大[]战略——长期[]投资、人和A[]I协作、伦理[]、安全、数据[]集、评估标准[]、人才、公私[]合作、国际合[]作。为推进战[]略执行和落地[],美国白宫科[]技政策办公室[](OSTP)[]相继设置了人[]工智能特别委[]员会(201[]8)和国家人[]工智能倡议办[]公室(202[]1)。
我国也炼大模[]型、大炼模型[]。今年一季度[],全球前三大[]GenAI风[]险投资中,我[]国占其二——[]月之暗面10[]亿美元A轮融[]资和Mini[]Max6亿美[]元融资。电信[]运营商、手机[]厂商、家电厂[]商、汽车公司[]、软件公司、[]AI公司、互[]联网公司、电[]商等各类型的[]企业纷纷涉足[],已有117[]个大模型通过[]国家生成式人[]工智能服务备[]案。大模型成[]为大厂标配。[]不过并没有短[]兵相接的“百[]模大战”,反[]而颇有井水不[]犯河水之意。[]
三块短板
我国人工智能[]位居世界前列[]。但也存在尚[]待补齐的短板[],集中体现在[]算力、数据集[]和人才三个方[]面。
一是算力。GenAI以算力堆积实现智能涌现,其成功依赖暴力美学。根据Jaime Sevilla等人的研究(2022),在前深度学习时代(1952-2009),算力需求每21.3个月翻一番,符合摩尔定律;在深度学习时代(2010-2022),算力需求加快到每5.6个月翻一番。如下图所示。根据THE DECODER披露(2023),GPT-4的每秒浮点运算次数(FLOPs)达到2.15×10^25,一次训练成本6300万美元。
里程碑机器学习系统的训练算力需求
来源:Sev[]illa J, Heim L, Ho A, et al. Comput[]e trends[] across[] three eras of machin[]e learni[]ng.202[]2.
在机器学习图[]形处理器领域[],英伟达占有[]95%的市场[]份额(来源:[]New Street[] Resear[]ch,202[]3)。英伟达[]的A100和[]H100芯片[]是训练大模型[]的“金刚钻”[],具有不可替[]代性。由于美[]国对华GPU[]限令,我国面[]临卡脖子现实[]。
二是数据集。我国数据规模大。根据国家互联网信息办公室《数字中国发展报告(2022年)》,2022年我国数据产量8.1ZB,全球占比10.5%,位居世界第二。这被看作发展相关产业的优势。然而,规模优势不足以弥补质量欠缺。不管把多大数量的马车连续相加,也决不能得到一条铁路(熊彼特,1934)。数据质量至少同等重要。在Hugging Face的高质量数据集中,英语以37.7%的比重位居第一位,中文仅占3.2%,和波兰语并列第九(来源:OECD,2023)。如下图所示。我国数据集的质量仍有待进一步提升。当然,这非一日之功,需要历经岁月的积累。
三是人才。自1966年以来,全世界共有77人获得图灵奖。其中只有一名华人——姚期智(2000)。我国计算机科学的历史积淀尚有不足,所幸近年进步很大,成为美国最大的竞争对手。根据MacroPolo数据(2024),全球最顶级(前2%)AI研究人员的原籍国中,我国以26%的比例逼近美国(28%),位居第二位。在顶级(前20%)AI研究人员的原籍国中,我国有47%,远超美国(18%)。但仍有隐忧,在最顶级(前2%)AI研究人员的就业国家中,我国仍位居第二,但仅有12%,远落后于美国(57%)。如下表所示。GenAI高度依赖人们的创新能力。如何吸引全球顶尖人才来华创业、就业,是需要努力的方向。
全球AI人才的分布比例
来源:根据MacroPolo(2024)数据整理
两道难题
每次创新都不[]是轻而易举的[],都需要破除[]很多困难,遭[]受人们的质疑[]。当前的Ge[]nAI面临以[]下两个比较突[]出的问题。当[]然,只有发展[]才能解决问题[]。
一是缺乏杀手级应用,面临商业化困难。伟大的时代,必有杀手级应用。例如PC时代的Office,桌面互联网时代的搜索,移动互联网时代的手机支付。GenAI是世界潮流,然而还处于应用推广的早期,美国企业的AI采用率仅有5.4%(来源:人口普查局,2024)。大模型燃烧的是美元,产出是更少的美元。作为全球最性感的GenAI公司, OpenAI 有会员订阅付费、开发者付费和微软分成三种盈利模式,自成立以来的收入累计不足20亿美元(来源:Finbold),却耗费了113亿美元融资。微软的GitHub C o p i l o t也采用会员订阅模式,用户需支付10美元月费或100美元年费。但因计算成本高,微软平均每月在每个用户上的亏损超过20美元,重度用户高达80美元(来源:华尔街日报,2023.10)。GenAI尚不具备传统软件的规模经济,需要通过给用户巨额补贴来培育市场。国内用户则更喜欢免费,为优质内容和知识付费的习惯尚未形成,会员订阅不成主流。GenAI的商业模式仍处于探索的初期。
二是未能显著提振平台企业业绩,云和芯片是最大受益者。GenAI的兴起为我国平台经济注入了一线生机,各大平台纷纷下场推出大模型。然而,GenAI的火爆未能显著提振平台企业的业绩,我国互联网平台仍处于萎靡期。自ChatGPT发布以来,尽管叠加了疫情结束、国家支持等利好因素,我国互联网公司的市值仍有涨有跌,相当大比例的企业跌幅较大,如下图所示。
自ChatGPT发布以来我国十大互联网公司的市值涨跌情况
来源:根据雪球财经数据整理,数据截止2024年4月11日
大模型训练需要耗费大量算力,云和芯片公司是直接受益者。根据A16Z(2023)数据,GenAI总收入的10-20%将流向云服务提供商。其中,创业公司80%-90%的早期融资都用于向云计算平台购买算力。微软、亚马逊和谷歌是全球三大云基础设施服务商,也是最活跃的GenAI投资者,就不足为奇了。自ChatGPT发布以来,英伟达市值增长457%,成为全球市值第三高的公司,是最大获益者。
第四次工业革命的悖论
自1956年[]达特茅斯会议[]提出“人工智[]能”术语以来[],人工智能的[]发展起起伏伏[],经历了多次[]炒作周期。这[]次似乎不一样[],即使对怀疑[]论者来说,C[]hatGPT[]的发布也意味[]着人工智能技[]术的重大突破[]。人们兴奋大[]呼:人工智能[]驱动的第四次[]工业革命正在[]到来!
工业革命的影响是全面的、深刻的、长远的,“综观世界经济史,工业革命是唯一一件大事”(Irad Kimhi,2006)。第四次工业革命如果到来,人们必会踌躇满志,经济必会生机蓬勃,生活必会欣欣向荣。然而,好像并不是。这是一个悖论。对此,时间可以给出答案,我们不必争论。有四个事实予以说明。
第一,人们对“智能”怀有与生俱来的痴迷,人工智能的发展充斥着乐观思潮。谢耘(2023)对其评价是:“志存高远,盲目乐观。”达特茅斯会议的主要参与者就曾作出大胆预言:
1958年,[]艾伦·纽厄尔[]和赫伯特·西[]蒙(两人共同[]获得1975[]图灵奖):“[]十年之内,数[]字计算机将成[]为国际象棋世[]界冠军” “十年之内,[]数字计算机将[]发现并证明一[]个重要的数学[]定理”。
1965年,[]赫伯特·西蒙[](1978年[]诺贝尔经济学[]奖获得者):[]“二十年内,[]机器将能完成[]人能做到的一[]切工作。”
1970年,[]马文·闵斯基[](1969图[]灵奖获得者)[]:“在三到八[]年的时间里,[]我们将得到一[]台具有人类平[]均智能的机器[]。”
第二,自2009年以来我们时刻在“经历”第四次工业革命(也有人说是第三次工业革命)。在中国知网上,以“第四次工业革命”和“第四次产业革命”为题名的文章分别有386篇和48篇(不计入2024年),如下图所示。微电子(1984)、云计算(2012)、物联网(2016)、大数据(2016)、区块链(2017)、工业互联网(2017)、新基建(2020)等,都曾被赋以“第四次工业革命”的使命。现在轮到GenAI了。这意味着,GenAI需要达到与蒸汽机、发电机、内燃机、计算机和互联网一样的高度。
中国知网以“第四次工业(产业)革命”为题名的文章分布
第三,国外一般把GenAI(或AI)比作智能手机、云计算、互联网等特定技术,且通常使用“可能”“之一”等词汇。例如:
黄仁勋(20[]23.2):[]ChatGP[]T是“the[] iPhone[] moment[] of AI”, OpenAI[] 所做工作是“[]one of the greate[]st things[] that have ever been done for comput[]ing”。
比尔·盖茨在[]《The Age of AI has begun》[](2023.[]3)中表示,[]图形用户界面[]和GPT是他[]一生中见证过[]的两次革命性[]技术展示,并[]指出:“人工[]智能的发展与[]微处理器、个[]人电脑、互联[]网和移动电话[]的诞生一样重[]要。”
亚马逊CEO[]贾西致股东信[](2024.[]4):“Ge[]nerati[]ve AI may be the larges[]t techno[]logy transf[]ormati[]on since the cloud([]which itself[], is still in the early stages[]), and perhap[]s since the Intern[]et.”
第四,历次工业革命都不是预测的结果,而是后人的总结。第一次工业革命(1760—1840)结束40年后,术语“Industrial Revolution”才在阿诺德·汤因比的推动下为大众所知;第二次工业革命(1870—1914)结束40年后,经济学家才开始使用“Second Industrial Revolution”,到1969年戴维·兰德斯《不受束缚的普罗米修斯》才标准化了其学术定义;第三次工业革命尚无统一认识,暂且不表。这颇有“伟大不能被计划”的味道,让我们期待第四次工业革命不同。
本文写作中,得到马骏、马源、石光、王明辉、李勇坚、白惠天等人的支持和帮助,在此一并感谢。
评论区
提示:本文章评论功能已关闭