消失的网页:信息衰减正在蚕食我们的历史

  摘要: 得益于像Facebook、Twitter这类社交网站的崛起,用户拥有了实时发布和获取相关信息的能力。但是有新的研究表明,在这些信息内容里面,很多链接所指向的网页内容已经不翼而飞。 在当下的媒体时代,我们会接收到大量变化迅速的信息,不管它是来自于博客、新闻网站还...

  得益于像Facebook、Twitter这类社交网站的崛起,用户拥有了实时发布和获取相关信息的能力。但是有新的研究表明,在这些信息内容里面,很多链接所指向的网页内容已经不翼而飞。

  在当下的媒体时代,我们会接收到大量变化迅速的信息,不管它是来自于博客、新闻网站还是社交网站。如果你非常喜欢阅读实时信息,这肯定是一件好事。但是它也存在一个不是那么隐晦的缺陷:许多信息将会被新的内容所覆盖,部分内容也在无声中消失。有研究报告指出,那些通过Twitter分享的新闻链接很多已经失效,比如说跟中东阿拉伯之春的革命的相关内容消失了不少,这可能会引起很大的问题。

  在这份研究报告中,研究人员主要把过去三年所发生的重大新闻作为调查对象,当中包括埃及的革命、迈克尔·杰克逊的逝去、伊朗的选举和H1N1病毒的爆发等。他们跟踪了Twitter上的相应分享链接,最终发现了一个惊人的结果。

  在链接所指向的页面里面,30%历经两年半后已经消失

  研究人员指出,在过去的一年里,有11%的链接内容已经不复存在。如果把时间范围扩展到两年半的话,这个比例到达30%!基于这个信息“衰变”的速度,有专家认为一年内消失的新闻内容会占总体的10%,剩下的则以每天0.02%的速率消失。

  在这份报告里面并没有说明新闻消息消失的原因,很有可能是网站把相关的内容删除或者转移到别的地方去了。《科技创业》认为这些信息是非常有价值的,它们可以用来跟踪历史的发展。

  其他科学家也对这些“数字数据”的消失而感到担忧。苏格兰的国家图书馆认为那些与苏格兰相关的数字生活数据正在消失,他们要求政府迅速立法,允许图书馆对各大网站的内容进行备份。网络先驱Brewster Kahle在数字存档这方面是富有名气的,因为他参与了互联网档案计划(Internet Archive),使得早期的网站内容得到了存档。

  

  获得社交数据不是一件易事

  对于Twitter上的内容,不管是链接所指向的内容还是自身的,要收集起来都是有一点难度的。Twitter的搜索是出了名非常不靠谱的,要把一周以外的内容搜索出来是无法保证的。有一个名叫Gnip的外部服务可以访问Twitter完整的内容存档,但是它是要付费的。用户也可以通过基于Twitter的搜索小引擎Tops对tweet进行归档,哪怕是非常老旧的内容都能搜刮出来。虽然上述的两个工具在存档方面提供了一些便利,但是要它们和历史研究与归档结合起来的话还是存在不少困难的。美国国会图书馆对Twitter的消息内容也保留了一份存档,但是一般用户是不能轻易读取得到的,而且它的内容也不一定及时更新了。

  虽然Twitter一直有说要向用户提供一个可以下载自己内容的服务,但是具体的时间我们是无法确定的。就算用户能够通过Twitter的服务(或者第三方的工具或者服务)来做内容存档,但是要从中筛选有用的历史信息作为研究对象也是有一定难度的。不仅仅是Twitter,要获得Facebook的内容存档也是一样的困难。

  那些散播在我们身边的信息可以说是稍纵即逝的,而我们也缺乏很好的工具去把它们都记录下来。从长期上来看,这些社交元素会对“数字失忆”造成多大的影响呢?我们的历史又会在数据膨胀的过程中被遗忘吗?

  Via:gigaom

  来源;http://www.leiphone.com/0920-ce6093-twitter.html

时间: 2024-10-01 17:56:32

消失的网页:信息衰减正在蚕食我们的历史的相关文章

socket-JAVA代理服务器,用浏览器打开的时候显示的网页信息总是不全,有时候显示不出来,求大神帮我看看

问题描述 JAVA代理服务器,用浏览器打开的时候显示的网页信息总是不全,有时候显示不出来,求大神帮我看看 package work; import java.io.*; import java.net.*; public class MMProxy extends Thread { static public int CONNECT_RETRIES = 5; //尝试与目标主机连接次数 static public int CONNECT_PAUSE = 5; //每次建立连接的间隔时间 stat

Java使用正则表达式及字符串操作,抽取网页信息

使用正则表达式及字符串操作,抽取网页信息,实现代码如下: /* 去script */ public static String trimScript(String content) { String regEx = "<script[^>]*>[^<]+</script>"; Pattern p = Pattern.compile(regEx); Matcher m = p.matcher(content); String result = cont

如何在win7电脑中实现快速打印网页信息?

  对于一个上班族来说,甚至是对于一个普通的人来说,要在ghost win7系统下载电脑中打印一个文件都不算是什么困难的事儿,但是我们如果不是单纯的去打印一个文件呢?如果是去打印一个网页信息呢?也许很多人还是知道怎么去操作的,不过今天小编想要介绍的是,如果更加方便快捷的去打印网页信息,提高咱们工作的效率.如果大家也有兴趣的话,不妨来看看小编到底是如何操作的吧! 1.小编这里的操作主要是以微软自带的IE浏览器为例的,首先,咱们需要打开IE浏览器程序,之后咱们要先找到自己需要打印的网页,将该网页打开

ghost win7系统下两步骤实现在IE打印网页信息

ghost win7系统下两步骤实现在IE打印网页信息 相比于电子档的资料存储,不少办公用户更倾向于将一些比较重要的资料直接打印出来,以纸档进行档存.或者说,你在网上浏览某些资料时,在保存电子档的同时,还可以直接在网页上将其页面信息打印下来. 一.先打开IE浏览器,然后在打开的IE浏览器上打开你要打印的网页,在该页面上,右键单击空白位置处,选择右键菜单"打印"选项. 二.然后在弹出的"打印"对话框中,选择好打印机,设置好页面范围,对其进行打印预览后,再点击"

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 (可以自动创建表头)

问题描述 java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 (可以自动创建表头) "java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 "创建好数据库的情况下可以插入对应数据了,现在我想实现自动创建表头,请问如何实现?请各位大大支招^_^ 解决方案 用正则表达式http://www.cnblogs.com/longwu/archive/2011/12/24/2300110.html 解决方案二: 没有你想象中的这么智能,要采集什么网页信息,入到什么

ajax-请问关于java 通过http client抓取网页信息返回:请开启JavaScript并刷新该页

问题描述 请问关于java 通过http client抓取网页信息返回:请开启JavaScript并刷新该页 初学httpClient,想去抓取某个网页查询出来的结果信息,通过浏览器监控发现response出来的信息和java控制台打印出来的不一样. package com.test; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import

如何让asp.net每天自动获取其他网站的网页信息

问题描述 如何让asp.net每天自动获取其他网站的网页信息 在没人访问我的网站的情况下,怎么让我的网站每天自动获取其他网站的网页信息 解决方案 写一个包含webclient的应用程序访问自己,把这个应用加入到windows计划任务.

c#用httpwebrequest如何模拟抓取这样的网页信息

问题描述 c#用httpwebrequest如何模拟抓取这样的网页信息 c#用httpwebrequest如何模拟抓取这样的网页信息,下面内容是用fiddler抓取的.CONNECT user.cloudcall.hk:8080 HTTP/1.0User-Agent: Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.1) AppleWebKitHost: user.cloudcall.hk:8080Content-Length: 0Connectio