消失的网页：信息衰减正在蚕食我们的历史

　　摘要: 得益于像Facebook、Twitter这类社交网站的崛起，用户拥有了实时发布和获取相关信息的能力。但是有新的研究表明，在这些信息内容里面，很多链接所指向的网页内容已经不翼而飞。在当下的媒体时代，我们会接收到大量变化迅速的信息，不管它是来自于博客、新闻网站还...

　　得益于像Facebook、Twitter这类社交网站的崛起，用户拥有了实时发布和获取相关信息的能力。但是有新的研究表明，在这些信息内容里面，很多链接所指向的网页内容已经不翼而飞。

　　在当下的媒体时代，我们会接收到大量变化迅速的信息，不管它是来自于博客、新闻网站还是社交网站。如果你非常喜欢阅读实时信息，这肯定是一件好事。但是它也存在一个不是那么隐晦的缺陷：许多信息将会被新的内容所覆盖，部分内容也在无声中消失。有研究报告指出，那些通过Twitter分享的新闻链接很多已经失效，比如说跟中东阿拉伯之春的革命的相关内容消失了不少，这可能会引起很大的问题。

　　在这份研究报告中，研究人员主要把过去三年所发生的重大新闻作为调查对象，当中包括埃及的革命、迈克尔·杰克逊的逝去、伊朗的选举和H1N1病毒的爆发等。他们跟踪了Twitter上的相应分享链接，最终发现了一个惊人的结果。

　　在链接所指向的页面里面，30%历经两年半后已经消失

　　研究人员指出，在过去的一年里，有11%的链接内容已经不复存在。如果把时间范围扩展到两年半的话，这个比例到达30%!基于这个信息“衰变”的速度，有专家认为一年内消失的新闻内容会占总体的10%，剩下的则以每天0.02%的速率消失。

　　在这份报告里面并没有说明新闻消息消失的原因，很有可能是网站把相关的内容删除或者转移到别的地方去了。《科技创业》认为这些信息是非常有价值的，它们可以用来跟踪历史的发展。

　　其他科学家也对这些“数字数据”的消失而感到担忧。苏格兰的国家图书馆认为那些与苏格兰相关的数字生活数据正在消失，他们要求政府迅速立法，允许图书馆对各大网站的内容进行备份。网络先驱Brewster Kahle在数字存档这方面是富有名气的，因为他参与了互联网档案计划(Internet Archive)，使得早期的网站内容得到了存档。

　　获得社交数据不是一件易事

　　对于Twitter上的内容，不管是链接所指向的内容还是自身的，要收集起来都是有一点难度的。Twitter的搜索是出了名非常不靠谱的，要把一周以外的内容搜索出来是无法保证的。有一个名叫Gnip的外部服务可以访问Twitter完整的内容存档，但是它是要付费的。用户也可以通过基于Twitter的搜索小引擎Tops对tweet进行归档，哪怕是非常老旧的内容都能搜刮出来。虽然上述的两个工具在存档方面提供了一些便利，但是要它们和历史研究与归档结合起来的话还是存在不少困难的。美国国会图书馆对Twitter的消息内容也保留了一份存档，但是一般用户是不能轻易读取得到的，而且它的内容也不一定及时更新了。

　　虽然Twitter一直有说要向用户提供一个可以下载自己内容的服务，但是具体的时间我们是无法确定的。就算用户能够通过Twitter的服务(或者第三方的工具或者服务)来做内容存档，但是要从中筛选有用的历史信息作为研究对象也是有一定难度的。不仅仅是Twitter，要获得Facebook的内容存档也是一样的困难。

　　那些散播在我们身边的信息可以说是稍纵即逝的，而我们也缺乏很好的工具去把它们都记录下来。从长期上来看，这些社交元素会对“数字失忆”造成多大的影响呢?我们的历史又会在数据膨胀的过程中被遗忘吗?

　　Via：gigaom

　　来源;http://www.leiphone.com/0920-ce6093-twitter.html

时间： 2024-10-01 17:56:32

消失的网页：信息衰减正在蚕食我们的历史

消失的网页：信息衰减正在蚕食我们的历史的相关文章

socket-JAVA代理服务器，用浏览器打开的时候显示的网页信息总是不全，有时候显示不出来，求大神帮我看看

Java使用正则表达式及字符串操作，抽取网页信息

如何在win7电脑中实现快速打印网页信息？

ghost win7系统下两步骤实现在IE打印网页信息

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

java采集网页信息，并获取到所需要的信息存入数据库中对应的字段中去（可以自动创建表头）

ajax-请问关于java 通过http client抓取网页信息返回：请开启JavaScript并刷新该页

如何让asp.net每天自动获取其他网站的网页信息

c#用httpwebrequest如何模拟抓取这样的网页信息