今天,机器能够发出声音同我们交谈,他们作为我们的手机个人助理,管理我们的智能家居。有时,机器的声音从无法识别的号码传来,通知我们中了大奖。
人们已经对机器的语音习以为常,但是通向语音合成的道路上,铺满了失败作品的残骸。这些作品饱含了人们对未来语音的期待——然而这些作品除了新颖之外再无价值
在探索机器语音的道路上,最迷人的杰作当属贝尔实验室的Voder,它是第一台完全合成出语音的设备。尽管它听起来像一个机器人恶魔。
Voder,在20世纪30年代首次亮相,它由Homer Dudley,一位有远见的声学工作者同时也是贝尔实验室的发明家制造。在20世纪20年代后期,达德利创造了一个更加知名的“通道”声音合成机,它将传入的语音转换为电子信号,并通过电话线进行编码,然后在电话线的另一端使用电子语音来模仿传入的语音。
Voder在这个基础上更进一步:它不需要借助人类的声音,就能够产生语音。运营商把Voder当做一个来自未来的喉舌,虽然它不会演奏音乐,但是它能够谈话。1939年1月的史密森学会的科学新闻信(Science News Letter)中的一篇专题文章这样描述“Voder是第一个真正发出人类声音的设备。”
文章中描绘的奇迹因为技术的进步(future shock)而不那么让人惊讶。“究竟应该把它当做一个人,还是一台机器?这台机器背后又是否存在人工智能?人们肯定会对此感到不安。”麻省理工学院人类学家Lilia Kilburn,这样说道。他主要研究声波技术和人类的交互,并对Voder和许多其他语音合成机的文化意义有所研究。
Voder像是一只野兽,它可以发出大约20种不同的电音。操作者使用10个键,一个腕板和一个踏板来操作它,通过使用10键弹奏的方式来编排这些电音,最终得以模仿人类语音。通过打击腕板,它可以在浊音(使用声带发出,如“uuuuh”)和清音(不使用声带发出,如“sssss”)之间切换。踏板会影响“声音”的音高,这会带来一系列的变化。
为了使Voder能够对单个单词发音,需要综合考虑组成单词的各种声音,以及会影响单词含义的细微变化。这是一个困难而且不自然的过程,因此总计只有20-30人学会了如何使用它。
像Kilburn所说,和声码器和许多其他早期语音合成技术一样,Voder产生的声音通常是男性的声音,但这些设备主要由女性电话接线员操作。事实上,根据在1939年刊登的科学新闻信(Science News Letter),里斯(Riesz )和其他工程师,以巴西皇帝Dom Pedro的名字,给Voder起名“Pedro”。这是因为有一回,Dom Pedro接到一个电话,并喊道:“我的上帝!它说话!
除此之外,当Voder 在1939年的纽约世界博览会(同一个世界博览会上展出了Elektro,吸烟机器人)上,由贝尔实验室最终展示时,它似乎来自未来。这是有史以来第一次,机器人自己说话,至少当时的主持人是这么介绍。
这台设备由Helen Harper夫人演示,Helper Harper不仅是Voder的最重要的运营商,而且她还培训了其他Voder的使用者。在一段机器演示的录音中,Harper说,她本人花了大约一年时间学习如何操作Voder。
Harper坐在一个光滑的控制台后,身后的墙上是一个高耸的装饰艺术画,画着一个喊叫着的人。在Harper敲击Voder键的同时,一位主持人向人们介绍Voder的语音功能。在演讲期间,Harper让Voder用不同的音调说同样的句子,用法语发音,模仿老人颤抖的声音,甚至模仿一头牛的声音。
Voder的声音有点难以理解,甚至有点让人感到不安。根据Kilburn的说法,除开语音本身,一个机器能够说话,这就足够不可思议了。 “这对人们来说很怪,”Kilburn说。 “我们不假思索便能开口说话,但我们不喜欢某些东西可以不假思索的对着我们说话。
在1939年年底旧金山的金门国际博览会期间,Voder再次展出,但之后,这台机器立刻消失的无影无踪。这台机器不是作为一种商业产品,而是作为一个示例,去证明当时贝尔实验室的某些令人惊讶的概念。
尽管如此,那台叫做Pedro的Voder仍然可以作为,向着声音合成技术实质的一瞥,而被人们铭记。今天我们对声音合成技术习以为常,就更不用说人们最后一次尝试像钢琴一样发出声音。
原文链接:The Voder, the First Machine to Create Human Speech (作者:Eric Grundhauser)