1.4 形式语言和自然语言
像计算机科学家一样思考Java
自然语言(Natural languages)指人类所说的语言,比如英语、西班牙语、法语等。自然语言并不是由人类设计的,它们是自然演化而形成的。
形式语言(Formal languages)是人类为了某种应用上的需要而设计的。比如,数学中的各种记号便是一种形式语言,这种语言能够很好地描述数字和符号之间的关系。化学家也用形式语言来表示化学分子的结构,而更重要的是:
编程语言是一种用来表达计算的形式语言。
形式语言对于语法有严格的规则。比如,“3+3=6”是一个合法的数学表达式,但“3$=”则不是。同样,H2O是一个正确的化学名,而2Zz则不是。
语法规则有两种:记号规则和结构规则。记号是语言的基本元素,比如单词、数字和化学元素。表达式“3$ =”的问题在于,“$”在数学上不是一个合法的记号(至少据我所知是这样的)。类似地,“2Zz”也不合法,因为没有化学元素的简称为“Zz”。
第二种语法规则表现在表达式的结构上,即怎么编排程序中的记号。表达式“3$ =”在结构上是不合法的,因为等号不能出现在方程的结尾。类似地,在分子表达式中,下标只能出现在元素之后,而不是之前。
当我们在读英语句子或形式语言中的表达式时,我们需要搞清楚这些语句的结构(虽然对于自然语言来说,你是在潜意识里完成这个任务的),这个过程称为解析(parsing)。
虽然形式语言和自然语言有许多相同的特征,比如记号、结构、语法和语义等,但它们也存在不同。
多义性(ambiguity):自然语言充满了多义性,人类可以根据所处环境和其他信息来处理这样的多义性。而形式语言是非歧义的,这意味着不管在什么环境下,一条语句只能表达一种含义。
冗余性(redundancy):为了弥补多义性,同时也为了减少误解,自然语言通常是冗余的,而形式语言则更简洁。
无修饰性(literalness):自然语言中有许多惯用语和隐喻,而形式语言则非常准确。
我们从小就在说自然语言,当转向形式语言时,通常会有一段困难的时间去调整和适应。自然语言和形式语言之间差别在某种程度上就像诗歌和白话文之间的差别一样:
诗歌:词语的发音和意思都是重要的,一首诗作为一个整体营造出一种氛围或情感效果,其中的多义性是常见的,甚至是故意而为的。
白话文:字面上的意思更重要,而结构也承载了更多的语言含义。
程序:计算机程序是非歧义的。我们通过对程序中记号和结构的分析是完全可以理解计算机程序的。
这里有些关于阅读程序(和其他形式语言)的建议。首先,形式语言比自然语言的信息密度更大,由此阅读所花的时间也越长。其次,程序中的结构是很重要的,这样一来,从头到尾、从左向右阅读程序往往不是一个好主意。相反,应该试着在自己的大脑里解析程序,识别记号并且翻译程序中的结构。最后,细节是重要的,像拼写错误和标点错误这样的小错误,虽然在自然语言中不是什么大问题,但是在形式语言中却有很大的影响。