Linguista : 「陶哲轩访谈」数学的未知领域

本文转自: https://linguista.bearblog.dev/terencetao-2024-wereenteringunchartedterritoryformath/
仅做个人收藏,版权归原作者所有

陶哲轩,当今世界最伟大的数学家,对人工智能有着自己的构想。

陶哲轩(Terence Tao),加州大学洛杉矶分校(UCLA)的数学教授,是一位现实生活中的超级智能。他常被称为“数学界的莫扎特”,被广泛认为是当今世界最伟大的数学家。他因其在数学领域的进展和证明赢得了包括数学界诺贝尔奖级别在内的众多奖项。目前,人工智能(AI)的水平远未达到他的程度。

但科技公司正试图让AI达到这一水平。近期备受关注的几代AI——即便是强大的ChatGPT——并非为处理数学推理而构建。它们的核心是语言:当你让这类程序回答一个基本问题时,它并非理解并执行一个方程式或构建一个证明,而是基于哪些词语可能按顺序出现来呈现答案。例如,最初的ChatGPT本身不会加减乘除,但它见过足够多的代数例子,能解 x + 2 = 4:“要解方程 x + 2 = 4,两边同时减去2……” 然而,现在OpenAI明确推出了名为o1系列的新“推理模型”,宣传其能够“像人一样”解决问题,并处理复杂的数学和科学任务及查询。如果这些模型成功,它们可能会给陶哲轩及其同行所从事的缓慢而孤独的工作带来翻天覆地的变化。

在我看到陶哲轩在网上发布了他对o1的印象——他将其比作一个“平庸但并非完全无能”的研究生——之后,我想更深入地了解他对这项技术潜力的看法。在上周的一次Zoom通话中,他描述了一种前所未有的、由AI赋能的“工业规模数学”:在这种模式下,至少在不久的将来,AI本身并非一个创造性的合作者,而更像是数学家们提出假设和方法的润滑剂。这种可能解锁知识的未知领域(terrae incognitae)的新型数学,其核心仍将是人类,它拥抱人与机器各自迥异的优势,并应将这些优势视为互补而非竞争。

本次对话内容经过编辑,以确保长度和清晰度。

Matteo Wong: 您第一次接触ChatGPT是什么体验?

陶哲轩: 它一出来我几乎就玩过了。我给它提了一些困难的数学问题,它给出的结果相当愚蠢。语言是连贯的英语,也提到了正确的词汇,但几乎没有深度。对于任何真正高深的问题,早期的GPT模型根本不怎么样。它们在做些有趣的事情上还不错——比如你想用诗歌或儿童故事的形式来解释某个数学概念。那些方面确实令人印象深刻。

Wong: OpenAI说o1能够“推理”,但您将该模型比作“一个平庸但并非完全无能”的研究生。

陶哲轩: 最初的措辞火了,但被误解了。我并不是说这个工具在研究生学习的方方面面都等同于一个研究生。我的兴趣在于将这些工具用作研究助理。一个研究项目有很多繁琐的步骤:你可能有一个想法,想把它具体化为计算,但你必须手动完成所有推导。

Wong: 所以它是一个平庸或无能的研究助理。

陶哲轩: 对,在扮演那种助理角色方面,它是等效的。但我确实设想未来你可以通过与聊天机器人对话来进行研究。比如你有一个想法,聊天机器人会跟进并填充所有细节。

这在其他一些领域已经发生了。众所周知,AI多年前就征服了国际象棋,但如今国际象棋依然兴盛,因为现在一个相当优秀的棋手可以推测在何种情况下哪些棋步是好的,并且他们可以使用象棋引擎来向前推演20步。我预见到类似的情况最终也会在数学领域发生:你有一个项目,然后问,“如果我试试这种方法会怎么样?”然后,你不是花费数小时去实际尝试让它成功,而是引导一个GPT为你完成。

用o1,你大概可以做到这一点。我给它一个我知道如何解决的问题,并尝试引导模型。首先我给它一个提示,它忽略了提示,做了些别的事情,结果行不通。当我解释这一点时,它道歉并说:“好的,我会按你的方式来。”然后它相当好地执行了我的指令,但接着又卡住了,我不得不再次纠正它。模型从未想出最巧妙的步骤。它能做所有常规的事情,但非常缺乏想象力。

研究生和AI的一个关键区别在于研究生会学习。你告诉AI它的方法行不通,它会道歉,也许会暂时修正方向,但有时它又会回到之前尝试过的东西上。而且如果你与AI开始一个新的会话,一切又回到原点。我对研究生更有耐心,因为我知道即使一个研究生完全没能完成任务,他们也有学习和自我修正的潜力。

Wong: 按照OpenAI的描述,o1能认识到自己的错误,但您是说这与持续学习不同,而持续学习才是让错误对人类有用的原因。

陶哲轩: 是的,人类有成长。这些模型是静态的——我给GPT-4的反馈可能只会被用作GPT-5训练数据的0.00001%。但这和与学生互动真的不一样。

AI和人类学习和解决问题的方式如此不同——我认为最好将AI视为完成任务的一种补充方式。对于许多任务来说,让AI和人类做不同的事情将是最有前景的。

Wong: 您之前也说过,计算机程序可能会改变数学,使人类更容易相互协作。这是怎么实现的?生成式AI在这方面有什么贡献吗?

陶哲轩: 技术上讲,它们不被归类为AI,但证明助手(proof assistants)是非常有用的计算机工具,可以检查一个数学论证是否正确。它们使得数学领域的大规模协作成为可能。这是一个非常近期的进展。

数学可能非常脆弱:如果证明中的一步错了,整个论证就可能崩溃。如果你做一个有100人参与的合作项目,你把证明分成100块,每个人贡献一块。但如果他们彼此不协调,这些部分可能无法正确拼接。因此,很少看到超过五个人参与单个项目。

有了证明助手,你不需要信任与你合作的人,因为程序给了你这种100%的保证。然后你就可以进行工厂生产式、工业规模的数学,这在目前基本不存在。一个人可以专注于证明某些特定类型的结果,就像现代供应链一样。

问题在于这些程序非常挑剔。你必须用专门的语言来编写你的论证——不能只用英语写。AI或许能够做一些从人类语言到程序语言的翻译。将一种语言翻译成另一种语言,几乎正是大型语言模型的设计初衷。理想情况是,你只需与聊天机器人对话,解释你的证明,聊天机器人就会在你讲述的过程中将其转换为证明系统语言。

Wong: 所以聊天机器人不是知识或想法的来源,而是一个接口(interface)。

陶哲轩: 是的,它可以成为非常有用的粘合剂(glue)。

Wong: 这可能有助于解决哪些类型的问题?

陶哲轩: 数学的经典观念是,你选择某个非常难的问题,然后有一两个人把自己锁在阁楼里七年,就为了攻克它。你想用AI来处理的问题类型则正好相反。使用AI的幼稚方式是把我们数学中最难的问题喂给它。我认为这不会非常成功,而且,我们已经有人类在研究这些问题了。

我最感兴趣的那种数学是那种尚不存在的数学。我几天前启动的项目是关于一个叫做泛代数(universal algebra)的数学领域,它研究的是某些数学陈述或方程是否意味着其他陈述为真。过去人们研究这个领域的方式是,他们挑选一两个方程,然后对其进行深入研究,就像工匠过去一次只做一个玩具,然后再做下一个。现在我们有了工厂;我们可以一次生产成千上万的玩具。在我的项目中,大约有4000个方程的集合,任务是找出它们之间的联系。每个方程相对容易,但可能存在一百万种蕴含关系。在这数千个方程中,大约有10个亮点,即被研究得比较好的10个方程,然后是一整片未知领域(terra incognita)。

在其他领域也发生过这种转变,比如遗传学。过去,如果你想为一个生物体测序基因组,这本身就是一个博士论文的课题。现在我们有了这些基因测序机器,所以遗传学家正在对整个种群进行测序。你可以用这种方式进行不同类型的遗传学研究。与其进行狭窄而深入的数学研究,即专家级人类在一个狭窄的问题范围内辛勤工作,你可以拥有广泛的、众包的、有大量AI辅助的问题,这些问题可能较浅,但规模要大得多。这可能成为一种获得数学洞见的非常有益的补充方式。

Wong: 这让我想起谷歌DeepMind开发的一个名为AlphaFold的AI程序,它解决了如何预测蛋白质三维结构的问题,这个问题在很长一段时间里都必须一次只处理一个蛋白质。

陶哲轩: 对,但这并不意味着蛋白质科学就过时了。你必须改变你研究的问题。一百五十年前,数学家的主要用处在于解偏微分方程。现在有计算机软件包可以自动完成这个任务。六百年前,数学家们在构建正弦和余弦表,这些是导航所必需的,但现在计算机几秒钟就能生成。

我对于复制人类已经擅长的事情不是特别感兴趣。这似乎效率低下。我认为在前沿领域,我们总是需要人类和AI。它们拥有互补的优势。AI非常擅长将数十亿条数据转化为一个好的答案。人类则擅长根据10个观察结果做出极富灵感的猜测。

发表回复