2024年5月21日 星期二

人类确实只有1个知识体系,但它在7000种语言中的分布是不均匀的。从知识体系的角度,谈“AI时代学英语的理由”

GPT-4o 能实现 50 种语言的同声传译了,人们还需要学英语吗?AI时代,学英语的理由是什么?

**语言与思维**

第一个理由,是语言和思维的关系:语言不是思维的外皮,不只是沟通工具。**语言就是思维本身,语言影响并塑造思维**。打个比方,语言是思维的操作系统。不通过语言这个操作系统,人类无法思考。试试看,当你在脑子里不出声地思考,这个思考也是用语言进行的。而不同的操作系统塑造了不同的思维方式。想象一下 window 和 mac,iOS 和安卓的区别。

**语言与文化**

前两天,我老婆补充了**另一个"学英语的理由":语言是文化的载体**。不同的社会形态,对人的定位、要求不一样,所以,语言训练方式也不一样。

我们的语文教育强调"美文",注重培养美德,爱国爱家的情操,以及传统文化的传承。说起语文,我们就想起冰心的小桔灯,父亲的背影,荷塘的月色。而作为世界语的english,本身现代科学和批判性思维的知识体系也是在这套语言上也发展出来的,所以,更注重训练人的明辨式思维能力,逻辑思考独立思考系统思考的能力,以及现代科学的思考方式。这也是为何全世界 60% 的内容是用英文写的,所有学术论文都是英文的,因为这不是某一国的语言,而是这个世界的语言,是文化和思想流通的货币,是科学和逻辑所使用的语言。

除了思维和文化这两个角度,我今天刚好遇到一个例子,可以作为以上两种观点的补充:**从知识体系的角度,看"AI 时代学英语的理由"。**

## 关于"逻辑推理"的知识

每天都要在logseq中新建和迭代几个费曼笔记,今天就遇到了"induction"这一条笔记。于是,我就想到几个问题:induction, abduction, deduction这三个逻辑推理的相关概念,在中文中的表达是什么?我过去在学校里什么课上学过?这几个概念背后的逻辑推理,作为一种基本素养,和现在互联网信息生态恶化有什么关系?

我觉得这个问题还挺重要的。毕竟,**今天胖猫,明天秦朗,今天激动,明天反转。我们都需要一些逻辑思考的大脑工具来防身护体啊。**

在论证这个例子与"学习英语的理由"的关联之前,我得先把这三个概念简单费曼一下:

### 逻辑推理的3种基本类型

这3种逻辑推理在一句话里得到总结:

> induction is probable,
>
> abduction is plausible,
>
> and deduction is certain.

翻译为中文:归纳是高概率但不确定的,演绎是100%确定的,而假设只是可能的。

**归纳推理**

[[归纳推理]],其他表述包括:inductive reasoning, induction,归纳,一般简称为"归纳"。推理方向:从特殊到一般,从个别到整体。induction按拆词法来理解就是"往里面(in-)推(duct-)"。举个例子:

- 我看到的天鹅都是白的;所以,所有天鹅都是白的;
- (我是一只火鸡。)过去,主人每天早上来喂我;所以,我的主人会每天雷打不动来喂养我;(我是一只多么幸福的火鸡。)

好的归纳,是高概率的,但是,仍然不是确定的。例如,圣诞节那天早上,主人就不给我喂食了。

**演绎推理**

[[演绎推理]] ,其他表述包括:deductive reasoning, deduction,演绎。一般简称为"演绎"。

推理方向:从一般到特殊,从原因推理出结果。deduction,用拆词法理解就是:"往外面(de-)推(duct-)"。举个例子:

凡人皆有一死;苏格拉底是人;苏格拉底会死。

演绎推理,是确定的,发生概率是100%。苏格拉底一定会死,他必须死。

**abduction**

第三种叫 abductive reasoning,abduction。wikipedia 中文版翻译为"溯因推理","反向推理"。这两个词都拗口和陌生,我在记忆中找不到熟悉顺口的名词。

假设和演绎,我们在高中的课本里是"学过"的,是有一定熟悉度的(理解和运用自如是另一回事)。但是,"溯因推理"是真没印象啊。对于abduction 这种推理模式,我认为比较好的翻译是"假设推理"。

这个"假设推理"的推理方向是:从事实推理到最佳解释,从结果推理原因。举个例子。

- 现象:草地是湿的;
- 已知规则:if 下雨,then 草地会湿;
- 推测:昨晚下雨了。

你还可以提出多个假设。假设不一定对,但是可以证伪,可以验证。例如,查一下天气预报,就可以验证这个假设推理。

**归纳是高概率但不确定的;演绎是100%确定的;假设只是可能。**

### 网络现象 vs 语言背后的知识体系

逻辑推理与思考之间的关系是什么?

逻辑推理(reasoning)是一种特定类型的思考,强调通过逻辑、系统性思考来得出结论。思考(thinking)是日常用语,是宽泛的概念。只要大脑加工处理信息,这就是思考。

但是,推理作为一种更好的思考,是科学思考、批判性思维的关键。逻辑推理如此重要,但其实只包括 3 种形式:归纳、演绎和假设。

如此重要的内容,如果你看英文内容,例如牛津出版社的小学科学教材,里面从头到尾都会强调 facts 和 opinion 的区分,强调归纳、演绎和假设,强调"scientific method" 作为一切科学探究的元方法。

英文太"实用"了:简单,清晰。一言以蔽之:**clear thinking**,让你的思考变清晰,让概念清晰不再模糊。举个例子,当你在网上遇到有人宣扬"认知折叠","系统正义","知识母体"这一类概念时,如果你有英语思维,习惯 think in english,你就会发现,这些概念在英文的 latent space 里面不存在。是的,没有这个东西,是新造出来的。

但是,这些技能在中文的内容体系的重视程度就不够。现在中文互联网上的诸多争论和乱象,低质量信息横行,反映了 facts 和 opinion 的区分,逻辑思考,批判性思维,科学思维,在一定程度上是欠缺的。

**我们需要一种思维方式,让立场不再否定事实,让情绪不再替代推理论证。**

## 用GPT做思想实验

开头说到,gpt-4o 支持 50 种语言的同声传译,这件事有什么有趣的?在语言层面上?

### 中文LLM vs 英文LLM

来一个思想实验吧:假设你分别**只用英文材料和中文材料训练了两个大语言模型**,一个英文LLM,一个中文LLM。

(之所以说是"思想实验",是因为现在所有LLM都是英文母语的,英语在训练集中都占绝对多数)。

在 LLM 内部,都有一个叫潜在空间(latent space)的内部表征。这是模型用来表示和处理人类语言的高维空间。

在 GPT 模型中,这个 latent space 就是 embedding 向量空间,GPT 模型通过高维向量来表征人类语言的丰富语义,在推理过程中,模型不断操作这些高维向量(变换,transform),来获取更精细的语义表征,形成对人类自然语言 prompt 的理解。你基本上可以把这个 latent space 看作是 LLM 的"内心世界"。

在中文LLM 的"内心世界"中,"猫"向量的位置和方向,与英文 LLM 的"内心世界"中,"cat"向量的位置和方向是接近的。而且,你把两个内心世界叠加,这两个向量就是基本重合的。

为什么呢?

**因为不论是英文 LLM 还是中文 LLM,人类语言描述的是同一个现实世界**。人类语言作为一种人造的符号系统,是用来解释世界改造世界的,不同的人类语言,如果转换到同一种向量空间,那么,同样语义的向量表征,就是位置和方向接近的,就是类似的。

### 问题来了

**问题来了:不同语言,作为不同的符号系统,对这个世界的解释和描述是不同的。同一个世界,不同语言的侧重点,以及基于这套语言构建的知识体系是不一样的**。所以,英文 LLM,中文 LLM,wakanda LLM,它们的 latent space中的语义分布是不一样的。东方语言构建的是东方世界观,东方文化,东方思维方式;别的语言,背后是别的文化和别的思维方式。

非洲农业不发达,语言也不发达,原生的词汇都是关于吃喝拉撒的,不会有关于 GPT的概念。假如一个非洲国家要发展出电影里的那种科幻级别的科学水平,就得在语言系统中引入成千上万的科学概念,来改造这个语言的词汇量以及背后的知识体系。你给非洲人费曼"GPT"这个概念,就必须得引入AI、深度学习、神经网络、线性代数、数字向量等一大堆概念,以后背后的知识体系。当一个非洲人要用现代科学思维来思考时,如果完全依赖过去只有吃喝拉撒词汇的本土语言和本土知识体系来进行,那会非常困难。

**以上面的"逻辑推理的3种方式"为例**,英文 LLM 的"内心世界"里,对应这部分内容的向量表征就比较丰富,表征的更好一些。中文 LLM 的"内心世界",对应这部分内容的向量表征就相对贫乏一些,相对混乱一些,也不够清晰。LLM通过海量数据学习到的表征尚且如此,人类大脑通过少量数据来学习,结果不好也自然可以理解了。

结果就是,对于"逻辑推理"这样的关键技能,如果你问"逻辑推理的三种基本方式是什么,费曼这三个概念,并举例说明",这样的题目可能很多人是答不上的。

现在互联网上的乱象,和这个知识体系问题、语言问题是否有关联呢?

### 语言 vs 知识体系

所以,我的观点是:全世界有 7000 种语言。**不同语言背后,是不同的知识体系。人类知识体系只有一个,但是它在人类 7000 种语言中是不均匀分布的。**

其中,现代科学和逻辑思考是起源于一种语言并被逐渐构建出来的,这种语言后来被选择作为全世界人沟通交流的语言。例如,日本人和韩国人通过网络认识后约会,说什么语言?说英语。

结合上面的例子,**英文背后的知识和思维体系**,更注重facts 和 opinion 的区分,注重科学方法,注重逻辑推理,注重收集信息、加工整理信息、准确提炼和理解观点、逻辑推理分析论证、形成自己的观点、提出性的问题。注重建立思考框架,形成自己的思考创新。

**中文背后的知识和思维体系**,也有独特不可替代不可或缺的特点。英文语言和中文语言,所承载的知识体系,思维方式是不一样的。两种语言对应着两类内容。不是学哪一种不学哪一种的问题,而是都要学的问题。

感恩我们的母语是中文,所以我们基本不需要费劲,背后的文化、思维方式就吸收到足够多了。我们的脑子里天然就有中式的文化传统和思维方式,我们泡在里面,不缺这个东西。从实用角度来看,**缺啥补啥,以形补形**,也是应该学一点英语的🤣。

7000 种语言,为什么只讨论中文和英文?中文是母语使用人数最多的语言,英文是使用人数最多的语言。中文背后有最大的市场,英文背后有全人类的知识。前些年,美国精英都让孩子学中文,因为看上巨大的市场。但是中文多难学啊。

对比之下,中文是我们的母语,而英语是众所周知最简单的世界语,一碟小瓜菜似的(或者说,a piece of cake?)。先天精通中文,后天精通世界语,就把巨大市场和人类知识两个好处全占了,何乐而不为呢?

ps. 推特上长文呈现不太好,时间和精力有限,也很难把三千字文章再压缩一遍。请多理解。长文版本可以移步这里:mp.weixin.qq.com/s/jwpdYM2T8eha

https://x.com/howie_serious/status/1792543064302743839?t=g8iiVurtaKX2zVlG5s1Wvg&s=09 
⬆️ 
看原貼的留言更精彩
🍩

⭕️ new retail ⭕️
🎀   Free YouTube Promote  🎀
🎀   部   落   格   推   薦  🎀
🔥 每日特價活動追縱 
=======================

沒有留言:

張貼留言