袁毓林：打造“小而美”的语言模型有没有可能性？——跟白硕博士讨论“语言的第一性原理”和“普遍语法”

白硕博士长年从事自然语言处理的研究与开发工作，并且一直对汉语语法学有深入的思考。像白硕（1995）这种由博士论文改写成的专著自然不用说，即使在他的一些博文短札中，我们也常常能读到他对于句法解析和语义处理的新颖见解和精彩观点。最近的白硕（2025），是他针对辛顿在尤利西斯奖章颁发仪式上的获奖感言而生发的感想与评论。其中，涉及挖掘语言的第一性原理、打造“小而美”的语言模型、怎么看待“语言天赋”学说在乔姆斯基理论中的地位、普遍语法和大语言模型的“转换器”（transformer）的类比关系等一系列重大的语言理论和语言技术问题。我们读了以后，一方面感到醍醐灌顶，另一方面又觉得启人以思，想就这几个话题，说一些跟白老师的调子稍微不同的话。别无他意，只是为了活泼思想，推动讨论。

一、能不能打造“小而美”的语言模型？

白硕（2025）指出，大语言模型利用足够大的算力，通过学习足够多的语料，捕捉到了语言的关键性的结构模式，具备了强大的支持多任务的语言（运用）能力。但是，考虑到算力对人工智能发展的制约，他提出了要深挖语言的第一性原理，打造“小而美”的低资源语言模型的想法。这在创新思路与技术方向上是非常有启发意义的；对于语言学人来说，也是激动人心的。但是，我本人比较怀疑：语言是不是存在可以被挖掘出来的第一性原理？按照一般的说法，第一性原理源于亚里士多德。他在《物理学》和《形而上学》等著作中提到，在每个系统探索中都存在第一性原理；第一性原理是基本的命题和假设，不能被省略和删除，也不能被违反。听上去，这类似于数学中的公理，是一种不证自明的“元起点”；或者说，是万事万物及其各种表面现象背后的基本原理（即首要原则）。于是，追寻第一性原理成为一种参透事物本质（道、底层逻辑）的思维方式，或者说是一种探索事物的“道”或“底层逻辑”的根本的方法。^[1]

探索语言的第一性原理，这种理想看上去很丰满、很美丽，但现实可能很骨感、很无奈。语言如果真的有这种所谓的第一性原理，也很可能是普通语言学上那种比较抽象的原理。如“语言符号的音义两重性”“音义关系的任意性”“语言构型上的双重分节性”等；或者是更加抽象、更加具有哲学色彩的“语言是天生的，而不是学会的”之类的基本假设或思辨基调。这种语言的第一性原理，对于语言技术与语言工程可能具有宏观上的指导作用；但是，就语言技术上的可行性与语言工程上的可实施性而言，尚有难以跨越或抵达的距离。这样，打造“小而美”的低资源语言模型也就失去了坚实的理论基础和方法论资源。更何况，从自然语言处理的发展历史与人工智能学理上推想，这种“小而美”的低资源语言模型似乎离不开规则系统。因为只有规则系统才能达到洪堡特所谓的“有限手段的无限使用”，^[2]而不是ChatGPT等基于统计的大语言模型的“无限语料的有限使用”。^[3]更加令人沮丧的是，在人工智能（包括自然语言处理）70来年的历史进程中，基本上是基于规则的符号主义占主导地位。换句话说，这种路子已经走了好多好多年了；如果可行，那么早就应该大有成就了。之所以迟迟没有太大的建树，可能是这条路子根本上就只能在小范围内做做玩具模型，不能推广到非限定的语言及其文本上。拿白硕老师自己苦心孤诣钻研了几十年的汉语范畴组合语法来说，在一定的语料范围内，我想，其句法分析和语义合成的效果也许是不错的；但是，一旦推广到更多的语料和文本上去，可能马上就会捉襟见肘。否则，他也就早该推出相关的语言模型或实用系统了。说到底，语言理论可以比较形而上和理想化；但是，语言技术就必须形而下和实在化。因为语言技术最终是要在语言工程面前接受检验的；只有可操作、可实施的语言技术，才能付诸工程实践，才能落地应用和形成工业化的产品。比如，还是在基于统计和神经网络的语言模型研究范式内部，的确有人在通过知识蒸馏、高质量数据筛选（如微软的Phi系列）、混合专家模型（MoE）等技术路径，来构建小型语言模型，^[4]并且效果不错。但是，它们远不是低资源的，并且模型规模也不算太小。

事实上，大语言模型的成功实践一再表明，缩放定律（scaling law）依然有效，模型性能往往随着模型规模（如参数数量）、数据集体量和计算资源的增大而增强。人工智能70年来“苦涩的教训”（the bitter lesson）依然是一剂醒脑的良药：我们应该放弃对复杂规则的执着，接受简单且可扩展的方法；与其企图把人类的知识教给机器，不如让机器自己从数据中学习。^[5]这一点，在机器人训练上效果尤其明显。

二、“语言天赋”是不是乔姆斯基语言理论的本质？

更加具有理论思考上的启发意义的是，白硕（2025）指出：

语言是不是“学会的”这件事情，并不是乔姆斯基理论的本质。语言学界内部在这个问题上误解乔姆斯基的也大有人在。乔姆斯基是在更高的层次来论证所谓“先天性”的。正如任何机器学习都要先有“模型”，而模型要先有“框架”，它是先于任何语料而存在的，就如同transformer框架之于大语言模型的学习。乔姆斯基说的是，学习任何自然语言，都要有一个先于语言而存在的框架，他把这个东西叫作“普遍语法”。

对于白老师的上述观点，我们表示不能认同。首先，语言是不是“学会的”这件事情，应该是乔姆斯基语言理论（甚至可以说是其心智哲学）的本质；或者说，在他老人家的心目中，这是关于语言的第一性原理。为了清楚明白，我们还是看乔老本尊是怎么说的吧。2023年5月，在接受政治科学家波利赫罗纽（C. J. Polychroniou）采访时，乔姆斯基说：^[6]

所有的成长和发展，包括所谓的“学习”，都是一个从生物体的初始状态开始，逐步将其转变为后续阶段的过程。

语言习得就是这样一个过程。初始状态是人类与生俱来的语言能力，这是显然存在的，即使像一些人认为的那样，它是其他能力的特定组合（但这一观点很不可能成立）。显然，人类具备一种生物学上的语言天赋。这是最不言自明的真理。

过渡到一个相对稳定的状态（即语言知识），之后只有表面的变化。外部数据触发并部分塑造了这一过程。通过研究终态（语言知识）和外部数据，我们可以得出关于初始状态的深远结论，生物天赋使语言习得成为可能。关于初始状态的结论划定了可能/不可能语言的界限。该界限适用于所有共享初始状态者——就目前所知即全人类，现存人类群体在语言习得能力上似无差异。所有这些都是常规科学，并且已经取得了许多成果。

可见，“语言天赋”是他关于语言的一个类似于第一性原理的基调性假设，也是他所谓的关于语言的“常规科学”的原始起点，由此才能引进“普遍语法”的观念。这种理论上的推导关系，他在另外一个场合，说得更加通俗易懂。请看乔老比较晚近的表述吧：^[7]

50年代初，……我搬到了哈佛大学，在那里我遇到了莫里斯·哈利（Morris Halle）和埃里克·伦贝格（Eric Heinz Lenneberg），……。我们三人互相交流，渐渐地对语言的一些假设开始成形。第一个假设是，无论语言是什么，它都是人类大脑的一种生物属性。第二点是，语言的使用具有某种创造能力，这种能力使语言具有创新性和无限性，但又适合环境，尽管不是由环境造成的。

所有语言都有一套共同的属性，即普遍语法（UG），……而UG的另一种含义就是试图找出它们的相同之处。然而，在生成语法的早期框架内，UG有了更为专业的含义。它变成了对先天的、由基因决定的语言能力基础的研究。对我来说，这种基础存在的证据是显而易见的：人类会说话，而且他们几乎是反射性地从非常零散的数据中拾取这些语言。孩子们并不试图学习语言，也没有人教他们语言，但语言还是很快就产生了。那么，一定是有某种内在系统使儿童能够从环境中挑选出这些随机噪音，并迅速从中构建出一种语言，这反过来又意味着一定有其先天基础。那么，UG就是关于这种先天基础的理论，而（生成）语法是一个早期的、有点含糊不清的术语，用来描述一系列生成程序，这些程序相当于我们所说的“语言”。……语言是什么？——语言是由你决定的。一般来说，这种性质的问题是没有答案的。……我在工作中提出的专业术语是“内在语言”（I-language），以区别于一般概念，但就像“语法”（Grammar）一样，它指的是同一个系统，是内在的、个体的、内向的，也就是说，它关注的是程序而非输出，而输出实际上只是附属现象。

显而易见，乔老心目中的“普遍语法”既指人类内在语言的共同属性（语法），也指对此的研究及其所形成的理论（语法学）。并且，他强调这种“先天性”的“普遍语法”不仅使语言运用具有创造性（有限手段的无限使用），而且还规定了什么语言（表达）形式是可能的、什么是不可能的。他还以此作为唯一正确的语言知识，来批评大语言模型不具有这种能力。

事实上，乔姆斯基一贯主张：人类的语言能力涉及某种独一无二的特征，其范围仅限于语言。Hauser，Chomsky & Fitch（2002）指出，这一特征就是狭义的“语言官能”，具有物种（人类）特殊性和领域（句法）特殊性。他们假定句法是语言的本质，狭义的语言官能赋予人类以递归能力，即应用一套有限的语法规则对一套有限的词和短语进行重新组合和排序的能力，借此人类才能组构和表达无限的句子。递归作为一种限定性重复形式，是人类语言的关键。^[8]但是，Lieberman（2006）指出，对一组有限的成分进行重新排序，进而形成一组无限的运动，是运动控制的一个关键特征。组构合乎语法的各种句子，不只是改变词序那么简单，还需要考虑包括大脑词典中词汇的语义—句法约束条件。比如，特定动词的特定的论元约束条件（即论元结构）；例如，“I kissed Ann”是合格的，而“I wished Ann”是不合格的。运动控制也需要类似的约束条件。比如，走路这一行为涉及一系列序列化且受制约的子运动（一条腿的脚跟着地—另一条腿向前摆动—然后脚跟着地……）。当基底神经节（Basal ganglia）释放并抑制连续的模式发生器时，诸如上述的约束条件就在发生作用。可见，句法能力超越语言领域。基底神经节则是一个通用的排序引擎，可以连接运动模式发生器（确定句法规则）的序列，使得我们可以在电脑键盘上打字，可以说出和理解句子。此外，在合适的时候，基底神经节也可以中断并调转到另一个不同的运动或认知模式发生器序列。简而言之，人类的基底神经节排序引擎是语言和思维的关键神经基础之一，它让我们可以弹琴、跳舞、画画、说话，并且不断地改变想法。^[9]也就是说，并不存在专用于语言官能的神经基础结构。

显然，乔姆斯基的语言天赋学说过分强调了人类的独特性与唯一性，即把人类看作跟其他不具有语言天赋的灵长类动物截然不同的特例。这种在语言能力方面，人类与近亲灵长类在进化上的不连贯性，就只能依靠生物学上的大型突变来解释。这肯定会让生物学家头疼不已。因为从统计学上看，这种大型突变违背了基因运作的本质。^[10]突变过程往往涉及某一调节性基因对某一生物基质的重组，突然改变或强化其现存的行为模式。^[11]于是，除非假设一批个体同时发生这种获得语言能力的突变；否则，通过突变而突然获得语言能力的个体（幸运儿），又怎么跟没有突变从而不具备语言能力的其他个体进行语言交流呢？还是这个幸运儿只能默默地让他的内部语言充当思维的操作系统，静静地等待其他幸运儿的诞生，再跟他们用外部语言来进行语言交流呢？相反，对于生物来说，更加普遍的是遗传变异现象。这恰恰又可以用来证伪乔姆斯基的普遍语法理论。根据Lieberman（2006），乔姆斯基忽视了遗传变异这一基本的生物学事实。无论是植物、昆虫、老鼠、马、人类或其他生物，构成某一物种的个体并非完全相同。就人而言，不同个体在个子、力气、健康方面千差万别；比如，有人天生高个子，有人患先天性糖尿病或早发性帕金森病等可能与遗传因素相关的疾病。假如真有一种遗传性的普遍语法的话，那么由于遗传变异，有些孩子可能天生就缺乏习得母语所必需的原则和参数，但有可能学会另外一门语言。然而，这种现象从未观察到过。美国是证伪乔姆斯基的普遍语法理论的“自然实验地”。不管父母是何种民族，儿童只要在说英语的环境下成长，就能学会英语。生活在双语或多语家庭的孩子，通常也可学会双语或多语，即使这些语言的词汇和句法大不相同。^[12]

另外，相信语言天赋论的人喜欢把人类说话和行走相提并论，认为它们都是人类不学就会的一种本能。其实，人类本身并不具有先天的双足移动反射，人类移动的神经基础有别于大部分四足动物。牛、马、鹿等四足动物刚出生不久，晃悠几下，踉跄几步，就可以慢跑，这是因为它们的神经系统“预装”了四足动物先天的移动“程序”。人类行走习得研究表明，人类也有类似的、系统发生学上的原始性四足移动反射。但是，双足直立行走却是儿童必须通过学习才能掌握的。大家知道，“学步幼童”在大人或“学步车”的辅助下，摇摇晃晃地蹒跚了一年多，才能学会控制脚跟着地行走。可见，显见于儿童身上的双足行走反射是一种人为现象，是幼儿直立时维持（本来要参与爬行的）双肩和双臂不动的结果。相反，当今的黑猩猩即使费了很大力气，直起身体来，仅用两条后腿，也走不了几下，跑不了几步。所以，有人猜想，古人类解决行走问题的方案也许跟皮层下‒皮层回路能力增强有关。这些回路具体指的是跟运动学习有关的基底神经节和小脑的前额皮层与皮层下结构。简而言之，选择行走或许是我们人类认知能力进化的起点。智人后续进化的标志是对耐久性慢跑的适应，这时对基底神经节排序引擎提出了更高的要求。在此基础上，早期直立人很可能又转向言语运动控制。^[13]这种情况，倒是说明了人类说话和行走都是需要学习的。

三、语言的“统计学习”和“线性序列”理论简介

问题是，如果语言不是天生的，而是后天学习的；那么，婴儿到底是怎么学会语言的呢？Barret（2017）在说明小孩子的“情绪概念”的获得时，引进了一个婴儿的“统计学习”（Statistical Learning）理论，并且说明这个理论最早来自语言习得的研究。下面，我们对该理论略做介绍。^[14]

在婴儿出生后的第一年，他们的大脑会主动内化一个概念系统。这个概念系统中包含大量的情绪概念。人类就是利用这些情绪概念来体验和感知情绪的。有证据表明，新生儿的大脑具有学习各种模式的能力，这个过程叫作统计学习。一个婴儿突然进入一个陌生而神奇的世界，在那一刻，他的大脑会遭受来自外界和身体的各种噪音及模糊信号的轮番轰炸。事实上，这些接二连三的感官输入并不是杂乱无章的，而是具有一定的结构性和规律性的。于是，婴儿的小脑袋开始计算哪些信号、景象、声音、味道、触碰、味道和身体内部的感受可以组合在一起，哪些不可以。一点一点地，婴儿的大脑以惊人的速度学会了把这些海量的模糊感觉分解成不同的模式：景象和声音、声音和味道、触觉和内感受，以及其他任意的组合。

实际上，人类天生具有从周围的规律和概率中学习的能力；并且，从统计学上讲，人类在母亲子宫里时就开始学习了。正是婴儿惊人的统计学习能力以及特殊的概念系统，让他们具有了特定的思维模式。专家们在研究语言习得时，提出了人类统计学习理论。因为，他们发现，婴儿天生对于学说话感兴趣。这也许是因为从出生开始，甚至在母亲子宫里的时候，声音就和身体预算（为了跟所需的身体行为相匹配，而对呼吸、心跳和代谢等生理状态进行的预测、监控和分配^[15]）一起出现了。随着婴儿连续不断地听到声音，他们逐渐能够辨别音位、音节和词语。从一团团模糊的声音，如“itstimefordinner, areyouhungryfordinnernow”，以及“dinnertimeyummyyummycarrots”，婴儿知道了哪些音节经常组合成对，如“din-ner”“yum-my”。于是，他们也就知道哪些音节可以构成一个词语。如果两个音节相对来说很少同时出现，那么很可能它们本来就属于不同的词语。婴儿很快就学会了这些规律，甚至只需要听上几分钟就可以学会。这个学习过程的作用非常大，它足以改变婴儿的大脑回路。婴儿天生就可以区分不同语言声音中的差别。但是，长到一岁的时候，婴儿统计学习的能力就会退化。这时，他们就只能辨别周围人所说的语言中的声音了。根据统计学习理论，这时候，婴儿就只会对他们的母语感兴趣了。

当然，统计学习并不是人类获得知识的唯一方式。但是，这种学习在生命的早期就开始了，而且并不局限于语言学习。可以说，婴儿是利用统计学习来预测世界，并指导自己的行动。他们就像一个小小的统计员，提出关于周围世界和自己身体的各种假设；并且，根据自己有限的知识来评估概率，整合来自环境的新证据，进行测试和验证。

以上就是关于语言的统计学习理论的要旨。其中，先天拥有和后天学习的界限可能并不清晰，也不重要了，因为统计学习这种一般性的认知能力是人类天生的。当然，这种能力可能并不限于人类，非人类的灵长目、狗和老鼠等都能够统计学习。甚至单细胞动物也可以进行统计学习，然后进行预测：它们不仅会应对周围环境的变化，还能够预测环境的变化。但是，从统计学上讲，人类婴儿不仅能够学习简单概念，还能够很快了解到周围的人的大脑中关于他们生活于其中的这个世界的有关信息。

值得注意的是，Nielsen & Christiansen（2026）的实验研究表明，语言不仅依赖于复杂的语法层次结构，还依赖于一些常用的线性模式。这些模式塑造了我们处理和理解语言的方式。比如，“wonder if you...”（不知道你是否……）、“in the middle of...”（在……中间）。这种跨越“短语边界”（phrasal boundary）的“非成分序列”（non-constituent sequence），构成了我们日常交流的常用的积木块——多词语块（multiword chunk）。这种非成分语块成为加快把有关成分拼装起来的黏合剂。比如，名词短语“on the top”和“the tallest mountain”，借助跟它们部分交叠的非成分语块“top of the”，促进了更大的名词短语“on the top of the tallest mountain”的生成和理解。正是多词语块这种反复出现的“扁平化”的词语搭配，为儿童语言习得时的统计学习和概率评估，提供了方便的绕开复杂的语法层次结构的“线性捷径”（linear shortcut）。

四、乔姆斯基为什么要批判ChatGPT等大语言模型？

同样是在接受波利赫罗纽采访时，乔姆斯基说：^[16]

科学的主要目标是发现内部系统，无论是在人类语言能力的初始状态中，还是在习得过程中所采取的特定形式中。只要这个内部系统被理解，我们就可以进一步研究它如何进入表现，与许多其他因素相互作用，这些因素也进入了语言使用中。

深入常规科学，我们发现语言的内部过程和元素无法通过观察现象来检测。通常这些元素甚至不会出现在言语（或写作）中，尽管它们的效果，通常是微妙的，可以被检测到。这是为什么局限于观察现象（如LLM方法）会严重限制对内部过程的理解的另一个原因，这些内部过程是研究语言本质、习得和使用的核心对象。但如果对科学和理解的关注已经被其他目标所取代，那么这就无关紧要了。

确实，聊天机器人在原则上无法与人类的语言能力相匹配，原因如上所述。它们的基本设计使它们无法达到人类语言理论的最低充分条件：区分可能和不可能的语言。由于这是设计的属性，未来的AI创新无法克服这一点。

所以，我们认为乔姆斯基的“语言天赋”“语言能力”“初始状态”和“普遍语法”等概念是大致等价的，至少在理论上是可以推导或者换算的。当然，这些概念比较抽象，目前也没有什么认知心理学和神经生物学方面的确切的证据，可以用来支持或反对它们。^[17]并且，“普遍语法”这种“初始状态”的有关参数应该是已经赋值的，至少是有明确的取值范围的；所以，可以决定什么样的语言是可能的、什么样的语言是不可能的；接下来，再通过儿童所暴露的具体语言的环境，来确定或调整具体的参数值（比如，宾语后置/前置于述语，允许/不允许某种代词主语脱落，等等）。如果上述理解不错的话，那么“普遍语法”这种“初始状态”是不对应于大语言模型的框架（比如转换器）的。因为，转换器等框架只是大语言模型的一种计算构架，只规定接受什么样的输入（嵌入向量）、进行怎样的运算处理（位置编码、多头注意力计算、求和归一等等）来调整神经网络节点之间的连接权重（即参数训练）、最终输出什么（下一个token（词元）的概率分布）。一开始的参数值是随机赋值的，全靠实施误差反向传播算法（error backpropagation algorithm，即EBP算法），通过下一个词预测的方法来拟合训练语料，从而得到稳定的参数值。^[18]所以，大语言模型并不知道（实际上也不在乎）什么是可能的语言、什么是不可能的语言。换句话说，在强化训练之前，大语言模型及其转换器框架是白板（tabula rasa，the blank slate）一块；而在乔姆斯基理论视野下，人脑是有语言的先天结构（语言能力的初始状态、普遍语法）的。也就是说，这两者有着知识论上的本质差别。

也正是因为这个原因，Chomsky et al.（2023）在肯定人工智能取得革命性进展的同时，提出了他们对基于多层神经网络的深度学习的人工智能的隐忧：

最流行、最时髦的人工智能（机器学习），会因为在我们的技术中加入了对语言和知识的根本性错误的概念而降低我们的科学水平，贬低我们的道德。

他们最大的疑虑是，ChatGPT等机器学习程序跟人类推理和使用语言的方式存在巨大的差异；这使得机器学习程序带有无法消除的缺陷，功能受到极大的限制：

无论这些程序在某些狭窄的领域多么有用（例如，它们可以在计算机编程方面有所帮助，或者为轻快的诗句提供韵律建议），我们从语言学和知识哲学中知道，它们与人类推理和使用语言的方式有着深刻的区别。这些差异对这些程序所能做的事情造成了很大的限制，使它们被编码为不可改变的缺陷。

他们强调，真正的人类智能（人脑）及人的智慧跟ChatGPT及其同类产品有着质的区别，这首先表现为“有限的无限”与“无限的有限”：

人类的思想通过语言，用威廉·冯·洪堡特的话说，可以“无限地利用有限的手段”，创造具有普遍意义的思想和理论。人类的思维并不像ChatGPT及其同类产品那样，是一个用于模式匹配的笨重的统计引擎，在数百兆字节的数据上大快朵颐，并推断出最可能的对话回应或最可能的科学问题的答案。

我们认为，这种人和机器之间“有限”与“无限”的对比，实际上并不公平。因为，如果只是为了达到生成形式正确、合乎语法的话语，那么大语言模型所需要的训练语料就不会太多；但是，如果要生成内容正确、合乎情理的话语，那么大语言模型所需要的训练语料就会多得多，最好能够覆盖人类所有的常识和知识。Zhang et al.（2020）研究了预训练模型学习到的知识量与训练数据量的关系，结论是：对于BERT类型的语言模型来说，只用1000万到1亿单词的语料，就能学好句法语义等语言学知识；但是要学习事实类知识，则需要更多的训练数据。同样明显的事实是，一个会说话的小孩是并不具有全面性的知识的。如果要达到掌握比较丰富的基础知识，那么至少得中学毕业；而想要掌握一门精深的知识，那么至少要研究生毕业。事实上，现代大型语言模型是奔着万能博士的方向训练的，自然就需要数百兆节的数据了。

最后，他们从道德的高度对ChatGPT等人工智能产品进行了严肃的批判：

值得注意的是，所有看似复杂的思想和语言，都是由不聪明而产生的道德上的冷漠。在这里，ChatGPT表现出类似于邪恶的平庸：剽窃、冷漠和顺从。它以一种超级自动完成的方式总结了文献中的标准论点，拒绝在任何事情上采取立场，不仅辩称无知，而且辩称缺乏智慧，最终提供了一个“只是服从命令”的辩护，将责任推卸给它的创造者。

事实上，这些人工智能公司采用“跟人对齐”的强化学习策略，正是为了避免其人工智能产品生成违反伦理道德的“有害的”内容，或者是产出政治上不正确的“有毒的”内容。否则，花那么多钱，投入那么多的注意力，换来的结果只能是诉讼、官司、封禁、销毁。

梳理乔姆斯基他们对于ChatGPT等大语言模型的批评，主要是因为大语言模型是基于文本语料的统计来“学会”一种语言的；显然，这是基于“语言是可以学会的”这种在他们心目中是根本错误的语言观的。这直接违反了乔姆斯基主张的“语言是天赋的能力，而不是学会的”这种“常规科学”的理论假设。哪怕大语言模型取得了部分的成功，也只是“有限的无限”（有限地使用了无限的语料），达不到人类的“无限的有限”（无限地使用了有限的手段/规则/机制）；并且大语言模型还没有鲜明的道德立场，表现出“平庸的恶”（The banality of evil）。说句老实话，我们佩服乔姆斯基对自己的语言观和知识观的坚持，对迥异于自己的语言观和知识观的语言技术和语言工程的严厉批判；这种在外人看来的激进与偏执，甚至自负，也许是决意跟他认为“错误的”语言观及工程产品抗争到底的斗士所必须具备的品格。^[19]当然，我们也有信心和耐心等待基于“正确的”语言观而打造的“小而美”的语言模型的横空出世。但是，在当下，我们好像还是可以暂时拥抱，至少不要排斥和否定，基于“错误的”语言观而打造出来的还算比较好用的“大而美”的大语言模型的。更何况，这种大语言模型自身也在沿着既定的方向不断进化，逐步由一次预测一个词元发展到一次预测多个词元，甚至从自回归大语言模型向扩散性大语言模型挺进，逐步克服原来自回归模型的推理的时间瓶颈和生成的文本长度的限制。^[20]相反，我们暂时还看不到语言模型向“基于语言的第一性原理”的“小而美”的方向发展的一丝丝迹象。

五、克服学者思维的弱点：陷于理论诱导的盲区

喜欢语言学的计算机科学家希望通过挖掘语言的第一性原理，从而打造“小而美”的语言模型；坚信语言天赋和普遍语法的生成语法的开创者，要批判ChatGPT等人工智能产品，认为它们把对语言的错误观念带进了工程技术。何以如此？会不会是他们不自觉地陷于一种理论诱导的盲区呢？毕竟，这种现象在学术史上屡见不鲜。下面略做展开。

据Kahneman（2011）介绍，伯努利提出了“期望效用”（expected utility，他称为“道德期望”）理论。因为，他观察到大多数人不愿意冒险（即不喜欢接受最不可能的结果）；而且，如果让他们在期望值相同的风险收益和确定收益中做选择，他们会选择确定收益。这种想法背后的理论假设比较简单明了：人们的各种选择并非基于金钱的价值，而是基于各种结果的心理价值，即它们的效用。如此说来，一个风险的心理价值就不是对可能会得到的金钱收益量的平均加权，而是这些收益效用的平均值，每一项收益都要乘上自身的概率。伯努利的这个理论流行了300来年，可以说是经久不衰。但是，考虑有关的经济行为决策的实际例子，可以发现这个理论存在严重的缺陷。例如：

如今，杰克和吉尔每人都有500万美元的财富。从前，杰克有100万美元，而吉尔有900万美元。他们如今是不是一样高兴？（即他们的财富效用相同吗？）

从伯努利理论的角度看，杰克和吉尔的财富效用是使人们更快乐或更不快乐的原因。他们两人如今拥有同样的财富，因而伯努利理论认为他们应该同样地快乐。但是，就算没有学过心理学，你也知道如今的杰克非常高兴，而吉尔却非常失望。所以，伯努利的理论肯定是错误的。那么，为什么在很长一段时间中，人们对此离奇的错误居然习焉不察呢？Kahneman（2011）睿智地指出，我们很少能从一种理论明确主张的部分中发现错误，这些错误往往隐藏在该理论忽视或假设的内容中。显然，杰克和吉尔体验到的快乐，是由他们的财富的近期“变化”（即得失、输赢、赔赚）决定的，而不是由他们的财富现状所决定的（中译本第245—249页）。可见，自觉的批判性思维是多么重要！苏格拉底说过：“未经省察的人生不值一过。”同样，我们也要说：其背景假设未经检验的理论不能轻信！那么，结果效用这一概念在这些明显的反例面前如此不堪一击，却为何存在了这么长时间？Kahneman（2011）用学者思维的一个弱点来解释这一现象。他称这个弱点为“理论诱导的盲区”，即一旦你接受了某个理论并将其作为一个思考工具，就很难注意到其错误。如果碰到一个似乎和这个模式不相符的例子，你就会认为肯定有一个非常合理的解释，只是不知为什么你没有发现这个解释。你认为这个理论无可指摘，而且很信任认同这个理论的那群专家。那么，为什么人们懒得怀疑呢？因为怀疑是件苦差事，而且运用系统2（即主管慢思考的心理系统）很容易令人疲惫（中译本第251页）。

正是对于克服学者思维的弱点的理论自觉，使得丹尼尔·卡尼曼（Daniel Kahneman）能够发现伯努利理论的弱点；并且，和阿莫斯·特沃斯基（Amos Tversky）一起为行为经济学创造了虽然略为复杂，但是更具解释力的“前景理论”（prospect theory，一译：展望理论）。虽然前景理论比伯努利理论更加复杂，但是卡尼曼深刻地认识到：在科学中，复杂性被视为一种成本，要想厘清其中的原理，你必须有一套足够丰富、新颖且（最好是）有趣的预测来解释已有的理论往往解释不了的事实。这曾是我们必须面对的挑战（中译本第255页）。

回到语言研究和语言技术上来，提出简单而优雅的语言理论、打造“小而美”的语言模型，都是值得追求的；但是，人类自然语言本身的复杂性和概率性，可能会迫使我们建立相对复杂和不够精致的语言理论，构造“大而笨”的语言模型。

六、陷于盲区的情绪普遍论及其对于语言学的启示

关于学者思维可能会陷于理论诱导的盲区，还有一个很好的心理学案例，那就是基于经典情绪理论的情绪普遍性调查及其肯定性结论。这个案例对于语言学研究尤其具有启发性。

传统的情绪理论认为，情绪是被外部情景激发出来的一种对于世界的心理反应，是一种天生的本能；像愉快、愤怒等不同的情绪类别都各有一种独特的生理指纹，比如高兴了会大笑、生气了会沉下脸或紧锁眉头。并且，情绪具有普遍性，世界上所有的健康人群都能够展现这些情绪，也能凭借情绪指纹去识别它们。但是，心理学家莉莎·费德曼·巴瑞特（Lisa Feldman Barret）等倡导的情绪建构论却认为，情绪不是一种被动的心理反应，而是根据我们在社会和文化中获得的情绪概念主动地构建出来的一种心理体验，来赋予我们的某种感觉以某种意义。情绪不是天生的，而是后天从特定的社会和文化中学习到的。比如，我们之所以感到悲伤，是因为我们从小就受某种文化的熏陶而早早地知道：当某些身体感觉（如心跳加快、呼吸急促、肠胃扭结等等）跟某种巨大的损失（痛失亲人、遭遇灾祸、受到伤害或背叛等等）产生共鸣时，悲伤的情绪就有可能发生；情绪没有普遍性，既没有普遍的恐惧表情，也没有统一的表征恐惧的神经元网络。^[21]

那么，为什么有那么多的跨文化调查和研究支持情绪具有普遍性呢？Barret（2017）认为，是基本情绪调查法所包含的一些概念元素导致了情绪普遍性的出现。比如，经典的看图选词法：给不同文化的被试看由演员摆拍的、比较夸张的、代表6种基本情绪的照片，让他们从诸如“高兴、愤怒、悲伤、厌恶、惊讶、恐惧”等词语中，选择最符合所展示照片的面部表情的一个。其实，这种“词汇选择表”是一种“强迫选择表”，它无形中为受试者提供了一张作弊的指示条。这些词语不仅限制了可能的选项，而且同时促进受试者根据相应情绪概念在内心模拟面部形态。于是，在这些词语的“语义启动”（semantic priming）下，受试者只能从照片上看到特定的情绪，而不是其他情绪。认识到这一点后，几十年来巴瑞特团队做了一系列实验，包括取消情绪词汇列表，使用没有任何词汇的照片，暂时破坏受试者的情绪概念，针对因为脑损伤而无法处理情绪概念的病人进行测试，甚至对尚未形成明确的词汇概念的婴儿进行测试。她们发现，随着情绪概念越来越模糊，人们对摆拍出来的固定的情绪表情的识别能力也变得越来越模糊。这种演进过程充分说明，当人们在一张脸上看到一个表情时，只有他们拥有了相关的情绪概念，才能识别出这种表情；因为在这一刻，人们需要用情绪概念的知识来构建感知。^[22]

巴瑞特团队注意到，有数以百计的基本情绪调查研究都使用了词汇强迫选项，大部分来自其他文化的受试者都接触到了西方文化习俗和惯例。这两点在情绪实验中起了非常关键的作用，导致所谓的情绪普遍性实际上是实验设计的结果，但是却被研究者看作事实。而这又使得许多科学家和公众错误地认为“情绪表情”和“情绪认知”是有科学依据的。于是，Barret（2017）发人深省地质问：

如果有人从那些原始研究中得出不同的结论（比如，情绪不具有普遍性——引案），那么，今天的情绪科学会是什么样？（中译本第66页）

为了研究情绪普遍性，研究者投入的时间、金钱和心血之多令人难以想象。但是，若是情绪普遍性根本就不存在，又该怎么办？（中译本第70页）

我们被这种直击灵魂的拷问震撼住了，不禁从心底迸发出对当代语言学中普遍语法研究的疑问：

如果有人从大量的实证研究中得出不同的结论（比如，语言不是天生的，而是后天学习的；语法不具有普遍性，普遍语法并不存在），那么今天的语言科学会是什么样？

为了研究普遍语法，研究者投入的时间、金钱和心血之多令人难以想象。但是，若是语法普遍性或普遍语法根本就不存在，又该怎么办？

我们这么说，并不是要贬低或诋毁乔姆斯基及其语言学理论。相反，我们对乔姆斯基心存崇敬和感激。因为，正是他年轻时的《语言描写的三个模型》（1956）、《句法结构》（1957）等著述，为我们打开了语言学研究的广阔而神奇、变幻而绚烂的想象空间。^[23]我们只是担心普遍语法的研究会不会被下面这句古老而冷峻的西谚不幸而言中：在黑暗的房间中找到黑色的小猫是非常困难的，尤其是在房间中根本就没有黑猫的情况下。

七、结语：走向实证和多元化的语言学研究

行文至此，我要交代一下：我的上述讨论，无意于跟白硕老师抬杠；而是想通过这个案例说明，以大语言模型为参照，来看待和思考有关的语言学理论问题，是可行的；这不仅可以增加语言学讨论的议题，而且对语言学研究的路线思考和语言技术的创新发展具有启发意义。此外，不容忽视的是，语言学家也不可避免地存在着学者思维的弱点，常常会陷于理论诱导的盲区。因此，我们需要自觉地对自己所信从的各种理论观点进行检讨与评判，经常用各种相关的实例来验证和核实。并且，绝不能止步于此，还要进一步对这些理论观点所依据的背景假设进行省察与反思。

最后，关于语言学研究将往何处去？Lieberman（2006）展示了一条可行的多学科交叉融合的道路。该书采用不同物种的比较解剖学、神经生理学、考古人类学、现代影像学（ERP、fMRI等技术）、分子遗传学等领域的实验证据，探索人类语言的生物学基础及其演化问题。作者主张语言学研究应该融入进化生物学的理论和方法资源，推进跨学科的交叉研究，以期准确而系统地理解人类语言的起源与发生机制。^[24]我们认为，诸如此类的多学科交叉的实证研究，是语言学不同领域都应该努力的方向。比如，Arnon et al.（2025）整合了跨学科的最新证据，提出了一种语言产生的“多侧面的生物文化框架”（multifaceted biocultural framework）：语言的涌现并非单一能力的突变，而是多种古老生物基础和文化演化趋同与交互的结果。文章通过3个独立但关联的案例研究进行论证，说明语言的涌现依赖于多种独立演化的能力（如发声学习、结构化思维、社会动机）的汇聚，以及生物准备性与文化传播之间的动态交互；展示了生物演化、文化演化与个体学习3个时间尺度是如何相互嵌套、共同塑造人类语言的。可见，新时代的大门已经徐徐开启，语言学研究正逐步走向更加注重实证和多元化。

[1]　参考知乎、百度百科和维基百科关于“第一性原理”的有关词条。

[2]　详见Humboldt（1999：91）。

[3]　详见Chomsky et al.（2023）及其中文介绍。据乔姆斯基在一个访谈节目中说，这篇文章是由瓦图穆尔（Watumull）主笔的，他和罗伯茨（Roberts）是作为顾问；因为他们赞同瓦图穆尔的观点，所以被邀请一起署名发表。详见Polychroniou & Chomsky（2023）。下文第4节还会讨论该文。

[4]　感谢审稿专家提醒我注意这一点。

[5]　详见Sutton（2019）。

[6]　详见Polychroniou & Chomsky（2023），中文翻译由DeepSeek（深度求索）完成，卢达威博士核对。

[7]　见Milak & Tankosić（2024），Chapter 1：Re-making linguistics；这是两位编者对乔姆斯基的访谈。

[8]　他们认为，广义的语言官能是跟说话和理解相关的所有能力，包括概念、记忆、听力、计划和发声；其中，许多能力是人和动物共有的。

[9]　详见Lieberman（2006），中译本第184—187页。

[10]　参考Dunbar（1998），中译本第96—97页。

[11]　详见Lieberman（2006），中译本第214—215页。

[12]　详见Lieberman（2006）中译本序，第viii页。利伯曼（Lieberman）自称是乔姆斯基在麻省理工学院最早的4个学生之一。

[13]　以上内容，详见Lieberman（2006），中译本第195—196页。

[14]　以下内容，详见Barret（2017），中译本第119—126页。更加原创的研究，请看Saffran et al.（1996）。

[15]　关于“内感受系统”和“身体预算”，详见Barret（2017），中译本第85—90页。

[16]　详见Polychroniou & Chomsky（2023），中文翻译由DeepSeek完成，卢达威博士核对。

[17]　感谢周韧教授提醒我注意这一点。

[18]　详见袁毓林（2024）从语言学角度对ChatGPT等大语言模型的转换器的工作机制的介绍。

[19]　此处的表达，参考了Hayek（1988）的中译者冯克利教授对哈耶克的评价。中译本第11页。

[20]　详见袁毓林（2026）的介绍。

[21]　以上对情绪的传统理论和建构论的介绍，主要根据Barret（2017）的《前言》和第1—4章。

[22]　详见Barret（2017），中译本第55—60页。

[23]　在Lieberman（2006）的《前言》中，他回忆在麻省理工学院读本科和研究生期间，“年轻时代的诺姆·乔姆斯基开辟了一个让人驰骋翱翔的广阔空间”。中译本《前言》第3页。

[24]　详见Lieberman（2006）中译本的封底介绍。

袁毓林：打造“小而美”的语言模型有没有可能性？——跟白硕博士讨论“语言的第一性原理”和“普遍语法”

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏