读:逆萨丕尔-沃夫假说与编程语言
目录
Luke Plant 写了篇 Inverse Sapir-Whorf and programming languages,提出一个概念叫"逆萨丕尔-沃夫假说"(Inverse Sapir-Whorf),并用它来分析编程语言。
萨丕尔-沃夫假说的经典版本是:你用的语言影响你的思维方式。逆萨丕尔-沃夫则反过来问:语言不限制你能说什么,而是 强迫你不能不说某些东西 。原文举了自然语言和编程语言两方面的例子,下面把主要论点翻译过来,每节后面加一些我的批注。
自然语言中的逆萨丕尔-沃夫
英语:进行时 vs 一般时
"我住在伦敦"有两种说法: I'm living in London (进行时)和 I live in London (一般时)。非母语者可能察觉不到差别,但母语者会下意识地理解:前者暗示这是临时的。问题在于你 必须 选一个时态,于是你被迫透露了这段居住的"临时性",哪怕你根本不想说这个。
英语/土耳其语/法语:代词性别
英语日常对话中,提到一个具体的人你几乎必须用 he 或 she 。土耳其语则只有中性的 o (他/她/它)。土耳其语没有性别代词,不意味着它限制了你的思维方式(这是经典萨丕尔-沃夫的论证方向),但逆萨丕尔-沃夫很清楚:英语强迫你透露性别,哪怕你不想。
法语更微妙:名词自带性别。把 my friend 翻译成法语,你必须在 mon ami (男性朋友)和 mon amie (女性朋友)之间选一个。所有格代词也是, his / her 是按所有者性别区分,法语的 son / sa 却是按被拥有物的性别区分,透露的信息不一样。
土耳其语的 mış 过去时
土耳其语有两个过去时:普通过去时和 mış (读作"米什")形式。 mış 形式用于转述或不确定的信息。问"弗雷德周一来了吗?",你亲眼看到了用普通过去时 geldi ,听别人说的用 gelmiş 。
英语里你只需要说 he came ,不需要标注信息是从哪来的。土耳其语却 强迫 你标记可靠程度。普通过去时不是"中性"选项,因为存在 mış 形式,你不用它反而显得刻意。
作者提到他和妻子在土耳其待久了,说英语时也经常在句尾不自觉加个 mış ,因为英语句子说完了才发现没标"听来的"。
编程语言中的逆萨丕尔-沃夫
作者认为经典萨丕尔-沃夫在编程语言中是成立的:某些语言确实很难表达特定概念(比如在 Python 或 Haskell 里很难谈内存分配)。但他更想聊的是逆萨丕尔-沃夫:编程语言强迫你谈什么?
求值顺序
大多数语言强迫你表达计算顺序。Python 的 x = some_func(y + 1, z + 2) 隐含着"先算 y + 1 ,再算 z + 2 ,然后传参给 some_func"。不存在不指定顺序的表达方式。
Haskell 则不同。非严格语义(non-strict semantics)下, some_func (y + 1) (z + 2) 没有指定求值顺序。这让"Tying the knot"之类利用惰性构造自引用数据结构的技巧成为可能,你可以引用尚未定义的值。
async 染色
JavaScript 或 Python 里, async 关键字强制标记函数是同步还是异步。不标记 = 同步,标记了 = 异步。没有中间态。
作者指出关键问题:你无法写一段"对 async 状态无所谓的代码"。 async 就像传染病,调用了 async 函数的函数 也 必须是 async。这就是"function coloring"问题。不管你关不关心这个区别,语言强迫你关心。
内存管理
没有 GC 的语言强迫你谈内存分配和释放。C 是显式的( malloc / free ),Rust 则转化为生命周期标注和引用计数。你说"我不关心什么时候分配什么时候释放,帮我搞定",这种态度在这些语言里不是选项。但反过来,不谈内存也有代价:语言几乎必然需要 GC 运行时。Haskell 可以做严格性分析(strictness analysis),在很多情况下由编译器自动决定是惰性求值还是严格求值。
作用域
现代语言大多强迫你思考作用域。作用域通常通过变量的物理位置表达,额外的语法(如 Python 的 global / nonlocal )用来修改默认行为。
作者说如果你想完全不考虑作用域,大概只能退回到用汇编,所有变量用一个全局地址空间。
批注 :Elisp 的动态作用域(dynamic binding)在这方面很独特。用 defvar 声明的变量具有动态作用域:变量绑定在整个调用栈上可见,被调用的函数可以直接访问调用者的变量绑定。这种机制的好处是不需要显式传递参数,坏处是封装性差——调用链上任何一层都可以无意中影响其他层的变量。一直到 Emacs 24 才开始支持词法作用域(lexical binding), let 绑定默认不再向调用栈下游暴露,解决了动态作用域的封装问题。但代价是 Elisp 作者现在必须在文件头声明启用词法作用域( -*- lexical-binding: t; -*- ),并理解两种作用域共存时的规则。这就是逆萨丕尔-沃夫式的强迫:语言逼你在"方便但容易互相影响"和"安全但需要额外声明"之间选一个。
类型
静态类型语言强迫你注明每个变量的类型。类型推断能减轻负担( let x = 42 不需要写类型标注),但推断终归有其局限性。
纯动态类型语言仍然可以标注类型(比如 Python 的 isinstance 检查),但这不自然,而且技术上和静态类型是两回事。
作者认为渐进类型(gradual typing)的魅力在于它真正避免了逆萨丕尔-沃夫问题:你可以选择谈类型,也可以不谈。实际效果取决于项目约定和 linter 配置,但至少在语言层面给了你自由。
批注 :Clojure 的 spec / clojure.spec.alpha 是渐进类型非常成功的实践。你可以用 s/def 给函数参数加规约,但不强制要求。 spec 的运行时可选意味着你能在"完全不管类型"和"精确描述数据形状"之间平滑过渡。而且 spec 不仅做校验,还自动生成测试数据、做解析,功能远超类型标注。
全文总结
作者在文末提了一个好问题:很多号称"易读"或"友好"的编程语言,本质上就是逆萨丕尔-沃夫屏障低的语言,它们不强迫你谈你不在乎的事。
反过来想,每次你在语言里加一个 必须 的标记( async 、生命周期标注、作用域声明),都是一道逆萨丕尔-沃夫的屏障。有些屏障是必要的,比如安全和性能,但有些可能只是习惯。
就像土耳其语的 mış 一样,编程语言中那些"你不说反而不自然"的东西,到底是在帮你还是在烦你,没有标准答案。