专访诺奖得主：大模型是记忆还是理解？

声明：本文来自于微信公众号机器之心（ID:almosthuman2014），作者:机器之心，授权站长之家转载发布。

物理学家理查德·费曼曾将自然世界比作众神的游戏，比如国际象棋——我们不知道游戏规则，但却可以观察棋盘，也许只是其中的一角，然后根据这些观察，试图找出游戏规则。

费曼的比喻，[]道出了科学研[]究的核心，也[]生动描绘了许[]多经济学家的[]工作，他们同[]样致力于从纷[]繁复杂的经济[]现象中，洞悉[]隐藏的模式和[]规律。

当我们谈及人工智能，尤其是近年来蓬勃发展的大模型，似乎也能看到同样的影子。以数据为中心的人工智能（Data-Centric AI）正在改变着人类组织和解释信息的方法，并在某些领域展现出改变信息获取方式的潜力。那么，大模型能否像伽利略、牛顿、爱因斯坦一样，从数据中提炼出全新的理论，实现真正的科学发现?

对此，201[]1年诺贝尔经[]济学奖得主托[]马斯·萨金特[]（Thoma[]s J. Sargen[]t）教授认为[]，人工智能和[]机器学习的核[]心理念可以追[]溯至伽利略时[]代，都是通过[]构建世界模型[]并基于模型进[]行预测和决策[]。机器学习作[]为人工智能的[]关键组成部分[]，通过数据驱[]动的方式实现[]了这一过程。[]

萨金特教授在[]写于2023[]年10月的工[]作论文《So[]urces of Artifi[]cial Intell[]igence[]》中表示，他[]所理解的「人[]工智能」，是[]指那些旨在完[]成「智能」任[]务的计算机程[]序，而这些任[]务过去是由像[]伽利略、达尔[]文和开普勒这[]些拓展了人类[]认知边界的先[]驱完成的。很[]多机器学习技[]术利用数据、[]概率论和微积[]分来推断模式[]，而设计机器[]学习芯片、算[]法和代码的程[]序员，则是在[]再现（cop[]y）伽利略的[]自由落体实验[]。

带着对人工智能和科学发现的疑问，以及对诺贝尔经济学奖得主独特视角的期待，机器之心在2024罗汉堂数字经济年会上对萨金特教授进行了独家专访。

人物简介

萨金特教授在[]2024罗汉[]堂数字经济年[]会发表演讲。[]图片来源:罗[]汉堂

托马斯·约翰[]·萨金特（T[]homas John Sargen[]t）是一位杰[]出的美国宏观[]经济学家。他[]于2002年[]9月加入纽约[]大学，成为首[]任 W.R. Berkle[]y 经济学和商业[]讲席教授。2[]011年，萨[]金特教授与普[]林斯顿大学的[]克里斯托弗·[]西姆斯(Ch[]ristop[]her A. Sims)共[]同获得了诺贝[]尔经济学奖，[]以表彰他们「[]对宏观经济中[]因果关系的实[]证研究」。

萨金特教授是理性预期学派的领军人物之一，该学派的核心理念是:经济个体能够理性地利用所有可获得的信息，并根据最佳的判断来形成对未来的预期，然后根据这些预期进行决策，反映了经济体系中「未来决定现在」的含义。他与罗伯特·卢卡斯（Robert Lucas， Jr.）和尼尔·华莱士(Neil Wallace)密切合作，为新古典宏观经济学的演进奠定了根基，做出了原创性的贡献。

萨金特教授在[]经济学领域享[]有盛誉，曾任[]计量经济学会[]、美国经济学[]会和经济动态[]学会主席。1[]983年，他[]当选为美国国[]家科学院院士[]和美国艺术与[]科学院院士，[]并于1997[]年荣获内默斯[]经济学奖。他[]的研究对宏观[]经济学、货币[]经济学、时间[]序列计量经济[]学等领域产生[]了深远的影响[]。

萨金特教授也是罗汉堂首批学术委员会委员。罗汉堂（Luohan Academy）是2018年由阿里巴巴倡议，全球社会科学领域的顶尖学者在杭州共同发起的非营利性开放型研究机构。2024年7月，第四届罗汉堂数字经济年会在上海举办，萨金特教授第四次现场参加活动。会议围绕人工智能对经济社会发展的影响及趋势展开，50余名海内外学者、政策研究者、科技领军人物和企业家参与了演讲和讨论。

访谈实录

机器之心:萨金特教授，非常荣幸有此机会。机器之心是一家专业的人工智能信息服务平台，我们的读者都是 AI 从业者（AI professionals）。

萨金特教授:噢，我是 AI 外行人（AI amateur）。

机器之心:您太谦虚了，您指出经济学是人工智能的学科基础之一[1]，我们期待您在经济学中的方法论能为人工智能的相关研究提供指导。当前人工智能领域有一大争议，有些人认为像 GPT-4这样的大语言模型（LLM）做的只是「记忆」，其强大仅仅来自于对海量数据的统计分析和概率推理，模型并不懂得因果关系。另一些人则相信，要足够精确地预测下一个词，就意味着至少在一定程度上真正理解了上下文。对此您是怎么看的?

萨金特教授:这是一个非常古老的问题和议题了。我喜欢你提出这个问题的方式，因为人工智能涵盖了众多技术和工具，编码和解码正是其中之一。这项技术起源于20世纪，算得上历史悠久了。在第一次和第二次世界大战期间，许多专家开始利用数学进行编码和解码。他们使用的方法正如你所说，是利用了语言的可预测性（predictability）。他们意识到字母并非随机排列，单词和句子之间也存在着某种关联。为了破译语言，他们开始寻找其中的模式和规律，并使用了一种叫做马尔可夫链的工具，来分析事物今天的发展如何影响未来的走向。某种意义上说，这就是编码和解码的核心所在，它不仅仅是寻找模式，还是寻找跨越时间的模式(intertemporal patterns)，甚至是在更长的时间范围内存在的这种跨越时间的模式(intertemporal patterns cross time)。字母的排列中蕴含着某种模式，可以帮助我们预测未来。

那么问题来了[]，这算是理解[]吗?或者说仅[]仅是一种模式[]识别?这就引[]出了一个更深[]层的、甚至可[]以说是哲学层[]面的问题:究[]竟什么是「理[]解」?我认为[]人们所说的「[]理解」，其中[]一部分就是对[]模式的深入了[]解，对模式的[]诠释，以及判[]断哪些模式是[]真正持久的，[]哪些只是偶然[]发生的。当然[]，这并不是一[]个完美的答案[]。

机器之心:那按照现有的深度学习或者大模型方法，人工智能可以从发现相关性发展到理解因果性吗?

萨金特教授:我一直以来都在认真思考这个问题，最近还就此写了一些东西。问题的关键在于，不同的人对「因果关系」的理解并不相同，他们对因果关系的定义和所需满足的条件也存在差异。YouTube 上有一个很棒的视频，讲的是一个人与物理学家和哲学家们探讨因果关系，结果发现他们各执一词。哲学家大卫·休谟就非常重视因果关系，将因果推理视为知识的核心。休谟认为，因果性可以用特定类型的相关性来定义，也就是说，当我们观察到一件事发生在另一件事之前，并且这种情况在不同的场景下反复出现，我们就会认为这两件事之间存在因果关系。在休谟看来，相关性和因果性在某些情况下几乎可以划等号。当然，也有人对此持有不同意见，他们认为因果关系的内涵不止于此。然而，休谟坚持认为这就是因果关系的全部。这个议题很快就会上升到哲学层面，甚至触及神学，变得非常复杂。

机器之心:那么我们能否跳出哲学层面的探讨，对大模型的因果推理给出一个数学上的定义或者描述呢?

萨金特教授:不能。

机器之心:为什么您这么快就给出否定的回答?难道我们毫无希望吗?

萨金特教授:哦，不是的，我的意思是，我可以给出好几种数学上的定义。在我的论文里，我就给出了好几种。但问题是，有些人看了会说，「对的对的，我就是这个意思」，可另一些人则会说，「不对不对，我说的不是这个，我明明是这个意思」，这种情况很常见，而且由来已久。

机器之心:我们今天面临的一大挑战是，大模型被视为「黑盒子」，其因果链（如果存在的话）极其复杂且难以定义，模型推理的原理或机制在很大程度上仍然未知。在您的经济学研究中，您一直强调对因果关系的分析。您认为是否有必要令大模型掌握因果推理?如果是的话，我们该如何做到这一点?

萨金特教授:这是一个很好的问题。我是这样看的，对于构建大模型的人来说，它并不完全是一个无法理解的黑盒子。他们使用特定的数学和统计工具，清楚地知道自己在做什么，也明白模型在理想情况下如何运作（They know conceptually what they're doing in theory）。我甚至可以解释说明这个过程。但问题是，这是否意味着大模型仅仅只是在机械地遵循指令，识别某些模式?

让我举个例子[]，就像华为的[]自动驾驶汽车[]，它可以做出[]非常复杂的决[]定。作为一个[]局外人，如果[]你问我华为的[]自动驾驶汽车[]是怎么做出某[]些决定的，我[]无法回答，但[]设计它的人知[]道。这是一个[]视角问题，就[]好比我手中的[]这台华为手机[]（从兜里拿出[]一台手机），[]对我来说这是[]一个黑盒子，[]但是对华为来[]说，它不是。[]

你的提问都很[]有见地，因为[]它们触及了一[]个核心问题:[]当我们谈论某[]个词，比如「[]黑盒子」或「[]因果关系」时[]，我们究竟指[]的是什么?我[]推荐你读一篇[]文章，阿根廷[]作家博尔赫斯[]的短篇小说《[]博闻强记的富[]内斯》（Fu[]nes the Memori[]ous）。它[]讲了一个拥有[]超凡感知力的[]人，可以记住[]所见到的一切[]，对任何细节[]都过目不忘，[]例如你的一个[]动作，角度的[]改变，甚至阴[]影的变化。当[]你开始读这篇[]文章的时候，[]你会觉得这个[]人很聪明，简[]直无所不知。[]但读到一半，[]你就会意识到[]他根本不会思[]考，因为他拒[]绝做信息压缩[](data reduct[]ion)，无[]法从海量信息[]中提炼出模式[]和规律。很大[]程度上，模式[]识别就是把一[]大堆数据进行[]压缩处理，而[]这正是智能的[]关键所在。当[]然，这也可能[]导致错误，例[]如把人按肤色[]分类，说这些[]是黑人，那些[]是白人，他们[]是不同的，就[]会犯下错误…[]…

话说远了，回[]到你的问题，[]博尔赫斯的小[]说揭示了一个[]有趣的现象。[]所以，当你说[]「因果」（c[]ause）这[]个词的时候，[]你实际上是在[]说模式(pa[]ttens)[]，但哪些模式[]才能真正代表[]因果关系呢?[]

实际上，我在[]这里（指20[]24年罗汉堂[]数字经济年会[]）有一个演讲[]，也会涉及相[]关内容，我不[]知道能否回答[]你的提问，但[]你可以听一下[]，你会看到不[]同的人有不同[]的看法。就像[]在日常生活中[]，你会遇到对[]因果关系持不[]同态度的人，[]我想大多数人[]根本不在乎，[]比如说我的孙[]子们，还有我[]的女儿，你一[]提因果她就不[]耐烦，她只关[]心漂亮的衣服[]、心爱的宠物[]。