玩笑到现实,大数据涉足文学研究--用数据模型分析莎翁著作

几十年来,文学作品中的统计分析已经从单纯的破译理论发展到尖端研究


1993年,Tom Stoppard的戏剧《世外桃源》(Arcadia)正式上演。在这部脑洞大开的戏剧中那些用数据统计进行文学评论的桥段成为圈内人的笑料。剧中一位傻乎乎的诗歌教师,Bernard
Nightingale,嘲笑他的同事用计算机程序来断定一个没有署名的故事出自于劳伦斯(D.H.
Lawrence)之手。并且还得意的指出“在同样的统计基础上,竟然有百分之九十的可能性,Lawrence还撰写了《淘气小威廉》(“Just
William”.作者是里奇马尔Richmal Crompton)这本书以及前一天的《百眼巨人报》(英国布莱顿市的一份地方报纸)。虽然这只是该剧中的几个笑话,但现在突然变得令人“细思恐极”了。 随着《新牛津莎士比亚》系列的出版,人们开始了一场关于伊丽莎白时期剧作家身份的讨论。

《新牛津莎士比亚》全集的最新版登上了去年10月份的头条新闻。因为书中指出莎士比亚的44部戏剧作品有17部是和别人共同完成的(相比之下,1986版中仅列出了8部)。 而其中一个新出现的人名,马洛(Christopher Marlowe),更让人们兴奋不已。这个名字的出现似乎佐证了之前一些关于作者身份被驳回的阴谋论。 然而,更吸引人眼球的是得出这个论断背后的技术。人们已不再是根据编辑观察等传统的方式,而是通过计算分析来做出这样的结论。 那么今天的数据语言学家是如何在不受作者影响力的前提下,弄清楚作者与作品的关系的呢? 同时我们更需要思考为什么做到这点很重要?

计算机和人类都可以通过一些“附加词”来识别是不是莎士比亚的作品,比如他会经常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight”。 显然用这种方法来判断是不是莎翁作品已经变得不那么准确了,因为那时候的作家常常会模仿其他人的行文风格。 早期的剧作家是非常紧密的一个团体,而与此同时16世纪的观众似乎并不是很在意作品的独创性。《帖木儿》(Tamburlaine),马洛的一部非常受欢迎的戏剧,当时被许多人模仿衍生出各种续作。以至于当时著名的剧作家本·琼森(Ben
Jonson)对该剧被无休止的模仿而发出了哀叹。 莎士比亚也和其他人一样没能免俗。 《马耳他岛的犹太人》(“The Jew of Malta” ,1589)中, 马洛笔下的巴拉巴斯将他的女儿阿比盖尔隔离在一个阳台上:

“But
stay! What star shines yonder in the east?

The
lodestar of my life, if Abigail!”

(“看! 哪颗星星在东方发光?就是我生命中北极星,阿比盖尔!“)


如果这段台词听起来很熟悉,那是因为十年后莎士比亚笔下的罗密欧有着类似的台词:

“But
soft! What light through yonder window breaks?

It
is the East, and Juliet is the sun!” (
“轻声!那边窗子里亮起来的是什么光?这是东方,而朱丽叶就是太阳!“)


在这种相互影响的情况下,电脑如何能够分辨出马洛和莎士比亚本人的作品以及他们作品中相互借鉴的区别?根据《新牛津莎士比亚》的编辑,其中的关键在于“功能词”, 就是 “to”或“a”这类能够为句子提供语法支撑的单词。 他们的理论认为作家们都会无意识地以自己独特的方式使用这些词。 例如,莎士比亚经常把“and”与 “with”连在一起用 - 克劳狄斯与乔特鲁德婚礼中的“With
mirth in funeral and with dirge in marriage” (“葬礼中的挽歌和婚礼中有欢歌”),老哈姆雷特的鬼魂说到“缓慢而庄严得出现在他们面前”( “Appears
before them, and with solemn march。Goes slow and stately”)。 因此即使作家们试图模仿他人的写作风格,功能词的使用仍然能够揭示他们真实的身份。 通过分析作家如何使用那些功能词,计算机可以初步地识别他们独特的语言指纹。

在莎士比亚作品的研究中,能够获知作品作者,作品内容以及写作时间是非常关键的,通过这些信息能有助于说服那些唯莎士比亚论者,因为在他们眼里莎翁就是一个孤傲的天才。 之前之所以人们会认为莎士比亚少有与人合作,主要原因还是那些与他合作的作家并不是非常出色。尽管计算机模型不是绝对准确的,但是以证据而非作品质量来判定作品的归属还是令人信服的。

其次,正确的作品归属让我们更好的了解戏剧作品本身。 当我们打开一部历史戏剧作品的第一页,就像开始了一部关于这段历史的电影。 由于《亨利六世》第二章的大部分可能是马洛撰写的,这就打破了这个历史剧作的统一性。 马洛更多的表现出对普通百姓角色(比如低调的杰克·凯德)的兴趣,而不是那些无所不能的君主;相反, 莎士比亚更喜欢“国王之死”类似的故事。 知道同一部作品出自他们两人之手,了解到其中的争议和共生,我们可以更好地理解戏剧本身。

据《新牛津莎士比亚》编辑之一加布里埃尔·埃根(Gabriel
Egan)所说,归因模型越来越准确,主要的原因就是“计算机研究人员越来越多地将研究精力转向自然语言,而自然语言研究是计算机发展方向中最难的问题之一 。“在《世外桃源》中,Bernard Nightingale曾坚持认为”你不能把拜伦的思想放进笔记本电脑里“。但就现在的情况来看,他的观点仍然可能是正确的。 在控制测试中,即使像《新牛津莎士比亚》所使用的高级模式,有时也会有明显的误判,把作品张冠李戴。统计分析仍将是重要的分析工具之一。因为它有着学术的客观性,只是之前人们在莎士比亚研究领域很少用到。

以上为译文

文章原标题《Revenge of the maths mob - Why literature is the ultimate big-data challenge》,由《经济学人》发布。

译者:friday012 ;审校:主题曲(身行)

文章为简译,更为详细的内容,请查看原文。原文文本也可见附件

时间: 2024-09-10 11:48:24

玩笑到现实,大数据涉足文学研究--用数据模型分析莎翁著作的相关文章

玩笑到现实,大数据涉足文学研究–用数据模型分析莎翁著作

自然语言研究一直以来都是计算机研究的一个重要方向.随着大数据时代的到来,人们也越来越关注自然语言这方面的进展.而文学是自然语言这个皇冠上的明珠.人们都拭目以待大数据摘下这颗明珠的那一天. 几十年来,文学作品中的统计分析已经从单纯的破译理论发展到更尖端的研究 1993年,Tom Stoppard的戏剧<世外桃源>(Arcadia)正式上演.在这部脑洞大开的戏剧中那些用数据统计进行文学评论的桥段成为圈内人的笑料.剧中一位傻乎乎的诗歌教师,Bernard Nightingale,嘲笑他的同事用计算机

大数据:法学研究的重要维度

法治作为维护人类社会文明之治的重要方式,法学研究理所应当在人类社会突兀的大数据变革中充分地考量和衡平社会状态的大数据维度.大数据依托于信息社会的信息采集,通过海量的数据分析,对每一个被采集对象的行为进行合理的预测.在法学研究领域,无论是以法律为分析基础的教义法学还是以社会为分析基础的社会法学,其之间的争论完全可以通过大数据的工具实证分析弥补其缺陷. 随着信息时代下信息革命的演进,人类社会从数据时代迈入了大数据时代,作为社会治理术的法学需要进行必要的调整,以适应日新月异的大数据化语境下的社会权利与

大数据使社科研究不再“望数兴叹”

党的十八届五中全会把握大数据迅猛发展的趋势,提出"实施国家大数据战略,推进数据资源开放共享".毫无疑问,国家大数据战略的实施为社会科学研究打开了"另一扇窗子".但是,目前社会科学领域对大数据的运用还存在一定分歧:支持者认为大数据将显著提升社科研究能力和水平:反对者则担忧大数据的运用会削弱社科研究中的伦理.价值等基本要素,可能带来社科研究基本学术精神的蜕变.实际上,只要我们把握社科研究的本质和使命,明确大数据的基本特征和发展走向,就能认清大数据运用给社科研究带来的新变

从政策驱动到技术践行 大数据开辟可持续发展研究新途径

可持续发展及面临的难题 可持续发展是世界对发展道路的审慎选择,也是我国的基本发展战略.随着全球资源枯竭.环境恶化的日益严重以及人类文明的演进和对生态保护理念的不断深化,可持续发展已经成为全球共识,对这一领域的研究也越来越热,日渐深入. 实现可持续发展的关键是如何制定合理的.能够平衡环境.经济和社会需求的复杂决策.然而自然.社会.经济系统本身的高度复杂性.动态性以及不确定性使得实现这一最优或近似最优的决策成为一个巨大的挑战.目前,可持续发展战略的实施仍然停留在政策驱动的层面,如何落实到技术实战,成

中国移动钱岭:电信运营商大数据商务模式研究

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 中国移动苏州研发中心大数据产品部总经理钱岭带来的演讲是"电信运营商大数据商务模式研究",通信管道是大数据的一个重要来源,钱岭

异构大数据存储方法研究

异构大数据存储方法研究 北京交通大学   单旭 主要的研究内容包括以下几个方面:首先,针对大数据的产生及所带来的挑战,从技术的角度论述了非关系数据库的发展历程.从总体上对关系数据库和非关系数据库的特点进行了对比,详细分析了关系数据库的优缺点及在大数据环境下遇到的瓶颈,深入研究了非关系数据库的架构.理论.特征及存储模型,阐述了其相比于关系数据库所存在的优势.然后,从功能上和性能上对微博系统具体的存储要求进行了深入分析,采用非关系数据库中三种具有不同存储模型的数据库,包括Redis.HBase和Mo

共享开放的运营商大数据平台架构研究

共享开放的运营商大数据平台架构研究 王晖  唐向京 当前电信运营商大数据业务模式和应用场景日趋清晰,对内对外大数据应用支撑要求搭建集约和开放共享的大数据平台.Hadoop生态系统的更新与扩展.混合计算模式与内存计算等技术发展为大数据平台建设提供了新的技术思路.文章通过分析运营商大数据建设面临的业务和技术新形势,提出近期运营商大数据平台建设向共享和开放能力平台的演进方向和核心要求,并从总体架构.技术架构等方面详细给出一种集约.融合.开放的运营商大数据平台架构设计方案及其工程实践案例. 共享开放的运

大数据助天文学研究风光无限

战国时期,一本记载着800多颗恒星名字和位置的<石氏星经>,是祖辈们探索宇宙的秘笈,被誉为最古老的天文数据库. 2400年后,美国天文学家发现了一颗超高速星.有趣的是,这个发现并非由天文观测获得,而是利用中国虚拟天文台公布的数据"算"出来的. 事实上,除了科学家,普通百姓也能借助大数据.云计算等高科技来实现"天文突破".此前,安徽合肥一名年仅10岁的小学生廖家铭,在没有任何观测设备的前提下,通过中国虚拟天文台的数据发现了一颗超新星,是迄今为止全球年龄最小

中国启动大数据领域重大研究计划 欲跻身国际前列

国家自然科学基金重大研究计划"大数据驱动的管理与决策研究"2015年度项目启动会暨学术研讨会1月5日在复旦大学举行. 重大研究计划指导专家组组长.清华大学教授陈国青当日表示,将通过本重大研究计划的执行,使中国在大数据驱动的管理与决策研究相关领域跻身国际前列,同时培养一批跨学科交叉型骨干人才和创新团队,为国家在相关领域的管理决策和智库提供支持. 大数据作为IT产业又一次颠覆性的技术变革,正在重新定义国家战略决策.社会与经济管理.企业管理等的基本过程和方式.大数据已经在政府公共管理.医疗服