AI眼中的历史:用人工智能挖掘旧报纸里的英国现代史

试问,哪位历史学家有时间阅读跨越一个多世纪英国历史的数千万份报纸?没人可以。所以,计算机科学家和历史学家一起,教会了计算机做这件事——分析新闻报道中的数十亿个词,让我们重新认识19世纪到20世纪初的英国历史。

这项研究发表在PNAS上(http://www.pnas.org/content/early/2017/01/03/1606380114),是对“文化组学”这一新兴学科的实践。

注:

文化组学culturomics,指通过数字化文本的定量分析研究人类行为和文化趋势的计算词汇学

计算机分析了1800年至1950年间的3500万份英国地区新闻报道中的286亿词汇,约占该时期英国地区报刊总量的14%。

作为对比,一个成年人的平均阅读速度为大约每分钟300字。按照这个速度,一个人需要整整180年来完成所有的阅读。如果算上人类的休息时间,阅读需要的时间就更长了。而计算机算法用大约8周完成了所有的工作,该项目研究员英国布里斯托大学计算机科学家Nello Cristianini称。

这项研究的第一步是人工检查,以确保计算机可以从报纸中提取真实的历史事件。检查的内容为计算机是否能准确地找到诸如加冕,已知的疾病流行和战争等事件。

有趣的部分发生在下一步:研究计算机算法是否可以找到历史学家使用传统方法不能找到的历史事件。

我们正在寻找一些不太明显的历史进程——例如,技术的兴起,”Cristianini说。“我们看到1900年左右,技术发生了变化。我们还能进一步解读更微妙的信号:我们可以看到电报,电话和广播被公众接受的速度有多快。这个速度在不断加快。现在,人们接受Twitter或Facebook只需要一年。”

人工智能分析不仅仅是简单的字数统计(这是曾经大量数字化文学研究的做法)。这一次,研究人员使用AI技术,如自然语言处理,以获得对上下文和文本含义的理解。你可以认为它是终极的快速阅读。

他们发现了什么?这是AI眼中的英国历史:

 电力什么时候赶超了蒸汽?

1898年。这一年,电在新闻中出现的频率开始超过蒸汽,电能逐渐取代了蒸汽。

图:20世纪来临时,电力取代了蒸汽(来源Nello Cristianini / PNAS)

 火车什么时候赶超了马车?

 仅仅四年后的1902年。火车的时代开始于19世纪40年代,那时英国开始发展国家铁路系统。但就新闻方面而言,火车在半个多世纪后才变得比马车更重要。

图:“铁马”(来源New York Public Library / Flickr)

 人们什么时候开始 

 不再讨论奴隶制?

 对奴隶制的报道高峰出现于1830-1870年废奴运动时期和1861-1865年美国南北战争期间。1870年后,报纸几乎不再提及奴隶制。

图:1830年到1870年,奴隶制出现在新闻中(来源Nello Cristianini / PNAS)

 记者什么时候开始 

 报道妇女参政权运动?

1906年。一个戏剧性的报道高峰出现在1913年,在女性参政倡议者Emily Wilding Davison试图在赛马会上阻拦英国国王的马之后。

图:Emily Davison倒在英国国王的马前,四天后她死于头部创伤(来源Hulton Archive)

注:

女权运动还有这段历史!今天的一切来之不易啊!

 女性什么时候得到了 

和男性相同数量的报道?

从来没有过。20世纪开始,对女性的报道率有上升趋势,且在二战时期突然增加。但在整个分析覆盖的时期,新闻中每提到一个女性大约会提到三个男性。在21世纪,这个数字更接近男女比2:1,但这种转变并不大。

图:战争时期,女性得到了更多的报道(来源Wikime)

 勇气什么时候最重要?

毫不意外,在第一次和第二次世界大战期间勇气被提到最多。维多利亚时代的价值观,例如毅力,在整个分析覆盖时期表现出报道频率的稳步下降。但在战争年代,对耐力和勇气等价值观的报道出现了明显的增加。

 英国和英国人的概念

(Britishness)是何时出现的?

注:

英国全称为大不列颠及北爱尔兰联合王国United Kingdom of Great Britain and Northern Ireland。不列颠Britain/British是对英国和英国人的统称,相较于对英国某部分的特指例如England/English是指英格兰和英格兰人,或Scotland/Scottish是指苏格兰和苏格兰人。

对“不列颠”的报道出现于20世纪早期,1900年左右出现第一个峰值,一战和二战期间出现了两个更大的峰值。这个发现和很多历史学家的观点不同——很多历史学家认为“不列颠”在更早前就已经是一个活跃的概念了。

图:“不列颠”的概念在20世纪早期开始活跃,而传统上,历史学家认为“不列颠”出现得更早(来源Nello Cristianini / PNAS)

 经济什么时候成为了口号?

与“经济”相比,“政治经济”一直是更为常用的术语,直到1900年左右,这两个词的用法变得更加模糊。20世纪初,这两个术语在约十年间的使用频率大致相似,之后,“经济”开始成为更受欢迎的用语,在几个剧烈的峰值后使用频率开始稳步上升。

原文发布时间为:2017-01-17

时间: 2024-10-10 10:41:02

AI眼中的历史:用人工智能挖掘旧报纸里的英国现代史的相关文章

旧报纸,你愿意出多少钱买?

旧报纸,你愿意出多少钱买?如果是废品回收人,最多愿意为旧报纸出几毛钱一斤的价格,但在另一些人眼里,出生当天的报纸100多元买一份,一点也不贵.在吴炴的http://www.aliyun.com/zixun/aggregation/4248.html">网店里,就收集着多个年代的旧报纸,他称之为"生日报"."这种带点文化味的小生意还挺受80后喜欢,都看中它的独特性,当然我更是沉迷其中." 吴炴是一位大学刚毕业两年的职场新人,而他另一个身份则是"

深度丨CES现场采访联想CTO芮勇:我在联想做的 AI 项目,以及对人工智能的看法

雷锋网按:芮勇博士自 11 月初正式公布去联想担任 CTO 后很少公开发声,而在今日的 CES 2017 现场中,雷锋网按等媒体对联想集团高级副总裁.CTO 芮勇博士进行了采访,芮勇博士非常详细全面地回答了他在联想所负责的 AI 项目以及对人工智能的看法.以下为采访内容:   问:在大多数人眼中联想还是一个更加专注在具体产品的公司,您的到来会给联想带来什么?在您看来什么样的产品才是最创新的? 芮勇:联想还是一家挺低调的公司,我加入之后才有了这样的感觉.其实联想有很多非常创新的产品和技术,可能之前

【演讲实录+视频】走近40+世界级AI专家!第三届中国人工智能大会资料分享

中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高.规模最大的人工智能大会.秉承前两届大会宗旨,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)于7月22-23日在杭州召开. 大会官网及图文直播:  http://ccai.caai.cn/m/zone/ccai2017/live 大会现场视频直播盛况:  https://yq.aliyun.com

苹果曝光首份AI论文,揭开滴滴人工智能调度系统真面目| AI科技评论周刊

雷锋网(公众号:雷锋网)按:过去一周,是"中国人工智能元年"的最后一周.这周里,苹果揭开其首份AI论文的面纱:美国启动全球首个深度学习加持的"癌症先进计算解决方案的联合设计":IBM在高性能计算上继续发力,提出数据中心计算(DCS )模型:2016年是三星饱受煎熬的一年,来年它将押注Galaxy S8,发力移动AI助手:滴滴研究院副院长叶杰平,为我们揭开滴滴AI调度系统的真面目. 苹果首份AI论文横空出世,提出SimGAN训练方法 12月27日,苹果的首份AI论文曝

2018年AI 8大趋势:人工智能将助力Google、Facebook等大公司稳赢?

计算分析大数据远远没有过时.反而,随着数据量不断增大,数据分析的水平也逐渐提高.我们看到的预测分析(Predictive Analytics)的应用,仅仅只是冰山一角.很多公司采用数据挖掘,机器学习和人工智能的方法预测销售额,从而达到优化市场营销的目的.这些做法对公司的发展有很大的帮助,不同类型的人工智能结合在一起,深刻地改变着我们日常生活的方方面面.未来,我们还将看到更多的改变. 以下是来自人工智能,大数据,预测分析和机器学习领域的关键统计数据: 到2018年,75%的开发者会在1个及以上商业

Facebook开源AI硬件 联手NVIDIA开发人工智能

Facebook人工智能研究小组(FAIR)计划增加GPU硬件的投资达两倍之多,旨在将机器学习技术扩展到旗下更多的产品里. Facebook的内部设计项目享誉业内,无论是简单地改善新闻推送(News Feed)算法抑或是为旗下的全球数据中心设计自主开发的全新硬件都做得不错. 全球最大的社交网络Facebook也不断对开源社区作贡献,日前传来的最新消息印证了以上两点,总部设在了加州门洛帕克的Facebook本周宣布计划开源旗下的人工智能(AI)硬件. Facebook工程师Kevin Lee和Se

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

【重磅】新智元推出百万级AI智库资讯互动平台,AI World2017世界人工智能大会TOP10大奖榜单发布

2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会.海淀区副区长李长萍.中国人工智能产业发展联盟副秘书长何宝宏为大会致辞.会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级AI产业生态平台. AI World 2017 世界人工智能大会 "AI奥斯卡&

50位中外AI领袖论剑AI World,世界人工智能大会10大亮点全回顾

AI大片震撼开启AI World 2017 新智元AI World 2017世界人工智能大会开场视频:如果你没有亲临现场,一定要看,年度AI大片,不容错过! 2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会. 会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级