信息论之父是如何将世界数字化的?

发布:科技 时间:2019-02-17 22:53

原标题:信息论之父是如何将世界数字化的?

信息论之父是如何将世界数字化的?

作者 | Tom Rutledge

译者 | 弯月

责编 | 伍杏玲

机械鼠闯迷宫

在 20 世纪 50 年代早期的一段视频中,贝尔实验室的科学家克劳德·香农(Claude Shannon)展示了他的一项新发明:一只名为 Theseus 的机械鼠(看起来需要上发条)。略显憔悴的香农站在一个制作精良的桌面迷宫旁,解释说Theseus就是为了解这个迷宫而建造的。这只机械鼠通过反复试验找到了一系列畅通的入口,并记录了成功的路线。在第二次尝试中,Theseus沿着这条正确的路线走出了迷宫,没有犯任何错误。

随后香农揭开了Theseus成功的秘诀:那是通过一系列密集的继电器,这是来自贝尔系统的电话交换硬件。它相当于20世纪50年代的计算机芯片,只不过尺寸大约是现在硬件的一千倍,并且功能只有百万分之一。

虽然一些科学家和工程师可能已经意识到Theseus是一个重要的东西——一个聪明又会思考的机器,但在场的大多数观众却没有理会,可能他们认为这只是一个花哨的发条玩具,或者可能是传统国际象棋中骗人的土耳其机器人。

然而,Theseus背后蕴含着惊人的智慧。在推动20世纪中叶信息技术革命的计算机先驱者(这群精英学者工程师曾经破解了纳粹密码并确定导弹轨迹)中,香农可能是最杰出的一位。他的成就可以与爱因斯坦或费曼相媲美,但香农的名气却没有他们高。这可能因为有人认为他的作品不过是一些小玩意儿,所以被遭到了摈弃。也有可能是对于大众而言,他那些最伟大的工作成果看似是遥不可及的。

作为“信息论之父”,他大胆地将信息从意义上分离出来,将信息视为一堆比特,与世界没有明确的联系。从很多方面看来,他的作品不仅违反人的直觉,而且沉闷和偏僻。

他是如何成为信息论之父的?

一部新的香农传记《A Mind at Play: How Claude Shannon Invented the Information Age》重新描绘了这段历史。作者 Jimmy Soni 和 Rob Goodman 强烈希望将香农的作品展示给广大读者,这本书是按照时间顺序描写了香农的生平。从书里人们可以看到他训练有素解决谜题的方式,同时也很惊讶地发现他有一颗贪玩的心。例如,在书的开头 20 世纪 20 年代,年轻的香农在密歇根州的小镇,他将家周围的栅栏都变成了电报线。在 20 世纪末,香农领着一群麻省理工学院的学生参观了他位于波士顿郊区的家——一个装满了自制的小玩意和玩具的虚拟博物馆。

Soni 和 Goodman 在本书中着重描述了香农的两大成就。首先,当今所有计算机都采用的数字化,这完全归功于香农。在 20 世纪 30 年代,计算机先驱们基本上都用制表的技术来改进模拟差分机上笨重的轮子和齿轮,用 Soni 和 Goodman 话说:“差分机是工程中一条漫长的死胡同。”香农通过一篇论文最终将计算机科学引上了数字化的道路,而这篇论文常常被称作有史以来最具影响力的硕士论文。

1937年,21 岁的香农完成了这篇麻省理工学院的论文,证明了数字设备的开关可以用英国逻辑学家乔治布尔八十年前发明的真假符号来表示。香农凭一己之力将布尔代数引入到了电子电路设计,从根本上简化了工艺流程,一劳永逸地封闭了模拟设计的死胡同。

其次,现代通信从 20 世纪 50 年代的电视画面发展到当今高速且无处不在的多媒体数据文明,香农功不可没。香农最伟大的成就是1948年发表的《数学通信理论》(A Mathematical Theory of Communication),这篇论文一经发表立即受到了正在寻找用更快更有保障的方式发送消息的工程师们的追捧。该论文对消息的深入分析(消息的信息内容,如何将内容转换为通信渠道发送的信号以及最后完整地接收)为各种信息的传输提供了原理与依据。虽说这些技术名称(例如数据压缩,频道优化和降噪等)对你没有任何意义,但你需要依赖这些技术打电话,收看Netflix,或发送推文。

然而,虽然信息理论的产物非常丰富,但纯信息论的形式却没有显著的实用。理论本身太难以理解,信息理论的本质太缺乏实用性。因此,它完美地体现了香农在抽象方面的天赋。Soni 和 Goodman 写道,“香农总是有办法挖掘背后的事物。他可以透过事物的现象,挖掘出其后的本质。”

当香农开始研究信息理论时,他面临着中世纪的难题:编制与破解密码,如何通过电线和无线电在长距离中发送完整的信息,以及建立一个可以让所有人都互相连接的公共电话网络。Soni 和 Goodman 写道:“当时信息还难登大雅之堂。”香农的目标是通过一个全面的解决方案解决诸多不同的信息问题。

经过十年独自研究“发明工具”,香农于1948年完成了这项工作。他的数学已经扩展成为了一个前后一致且完整的系统,可以通过任何通信渠道传输各种形式的消息。香农在信息理论方面的成就可以与欧几里德的几何原理并驾齐驱。

为了实现一种严密的技术解决方案,香农在这个问题上加了限制条件。起初,他将“含义”定义为“工程问题无关”。因为如果考虑到所有“相关的物理或概念上的因素”的话,评价成功传输的含义就会变得极其困难。因此他减少了发送信息的行为,以便在有限的可能性中进行选择,并要求在另一端做同样的选择。如此一来就可以衡量准确度了——简单地将收到的消息与原始消息进行比较。

香农在他的工作成果中选择了英语做为例子。因此,香农能让读者理解什么是合理而什么是不合理。虽然在他“没有含义”的规定下,合理与不合理无关紧要,但我们可以通过它们从直觉上判断准确与不准确。同时,选择英语也打开了文学数据库的历史,利用字母的使用情况(字母的出现频率,以及单词的组合模式和频率)获得分析性和经验性的信息。这些统计数据是他的模型的重要组成部分。

香农需要一个信息的原子单位,于是他自己创造了一个。香农利用布尔的理论,将字母、图像和声音简化成比特——1和0的字符串。在消息被简化成比特后,数学关系就开始出现了。通过文本传递的信息可以通过其对接收者现有知识的贡献来衡量,换句话说,它的能力是解决不确定性。在信息论中,这就是“信息”。

香农根据欧几里德的公理和假设模型,开始着手定义信息理论的元素及其在系统中的作用。例如,“冗余”(可预测的或甚至重复的比特串)是消息中的累赘,或是没有重复却不知所云的乱码。Soni 和 Goodman 谈到,早期的跨大西洋电报经常会出现冗余,因为原始的水下电缆会造成失真,因此经常会导致长句子被整个重复,或迫使人们请求更多冗余——“Repeat, please.”(作者描写了一个场景,形容“在通信中,电报就像萨缪尔·贝克特的戏剧一般凄凉。”)

网站地图