大数据探讨:如何整理1700亿条Twitter发布信息?

随着社交网络蒸蒸日上,美国国会图书馆不得不面对达到133TB之巨的Twitter发布信息文件;好在经过实践,他们已经找到了管理此类数据的办法。

截至目前,美国国会图书馆所保存的Twitter信息数量已达到1700亿条、存储文件体积更到达133TB--由于每一条信息都已经在这套社交网络中分享及转载,图书馆的技术团队需要想办法为用户拿出切实可行的检索方案。

在现阶段的项目报告中,图书馆管理人员指出目前市场上提供的此类大数据管理工具无法解决他们的实际困难。"很显然,现有技术还只能满足奖学金信息等规模化数据集的访问需求,而在创建及发布此类数据方面则表现乏力,"馆方表示。"由于此类任务的复杂性及对资源的极高要求,私营部门尚无法拿出具备合理性价比的商业方案。"

如果私营企业都难以搞定大数据管理工作,那么预算拮据、全靠政府资金支持的非营利性机构--包括全球最大的图书馆在内--又该如何解决这一难题?要拿出一套实用、经济、便捷且有能力处理1700亿条Twitter信息的索引系统无异于痴人说梦。

Twitter曾签署一份协议,允许美国国会图书馆访问该社交媒体网站中所发布的全部更新信息。馆方官员坦言,他们必须建立一套帮助研究人员访问社交平台数据的系统,因为随着网络化交流趋势的不断普及,以期刊及出版物为代表的传统沟通方式已经被逐渐取代。

在Twitter刚刚诞生的2006年到2010年间,首批数据转储文件为20TB,其中囊括了210亿条Twitter信息(包括用户当前位置及消息描述等元数据)。最近,馆方刚刚迎来第二批转储数据--总体而言,这部分副本压缩文件总体积为133.2TB。在此之后,图书馆将与Gnip公司展开合作,以小时为单位收集全部Twitter发布信息。2011年2月公布的统计数字显示,当时每天经由Twitter发布的信息约为1.4亿条;而到去年10月,这一数字已经增长到约5亿条。

研究人员强烈要求国会图书馆尽快开放数据访问功能--馆方称已经接到超过四百次此类请求。该项目由图书馆与Twitter双方并行实施,将为用户提供Twitter使用的历史记录,能够逐项列出他们通过账户发布过的每条信息。

美国国会图书馆在大数据管理方面算得上经验丰富:根据工作人员的说法,馆方自2000年开始就一直在为政府网站进行数据归档整理工作,数据总量超过300TB。然而Twitter的出现令归档工作陷入僵局,因为馆方实在找不到合适的办法保证信息易于搜索。如果继续使用馆方长期以来一直所倚仗的磁带存储方案,那么仅查询一条2006到2010之间的Twitter信息就需要耗费最多24个小时--而这批转储数据还仅占数据总量的八分之一。"Twitter信息之所以难于整理,一方面是由于数据量过于庞大,另一方面则是因为每天都会有新数据不断加入进来,而这种增长速度仍在不断提升,"官方指出。"此外,Twitter信息的种类也越来越多样。普通Twiiter信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的信息等等,这一切让我们无从下手。"

寻找解决方案的道路是曲折的。国会图书馆已经开始考虑分布式及并行计算方案,但这两类系统实在太过昂贵。"要想真正实现搜索时间的显著降低,我们需要构建起由数百乃至数千台服务器组成的庞大基础设施。这对于我们这种毫无商业收益的机构来说成本过高、根本不切实际。"

那么馆方到底该如何应对?大数据专家们给出了一系列参考方案。就国会图书馆的情况而言,技术团队也许最好进行分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作、另一款则用于回应查询请求,Mark Phillips指出。他既在Basho担任社区及开发推广主管,同时也是开源数据库工具Raik的创始人(该工具在键-值存储方面便利而极具可扩展性)。

大数据管理工具已经构建起欣欣向荣的新兴行业,用户可以根据不同的使用需求与预期成本选择专有软件或者开源方案。国会图书馆的技术人员所面临的最大问题在于,他们该如何开始整套系统的创建和管理工作。如果馆方希望走开源的道路,那么可选的数据库创建及管理工具可谓百花齐放--从Hadoop集群到专门针对高输入/输出读写操作的Greenplum数据库可谓应有尽有。二者还能够与Apache Solar--一款开源搜索工具--加以整合。开源为开发者们指明了一条免费获取源代码的光明道路,能够在商业硬件上构建起理想中的系统成品,然而采用开源也意味着我们需要在后端开发工作中投入大量人力物力。当然,国会图书馆也完全可以走更昂贵但更省心的专有软件道路,从甲骨文或者SAP这些业界巨头那里直接采购数据库产品。

不过无论采取哪种方式,Twitter项目中那硕大无朋的数据总量仍然难以攻克。不过Phillips的态度给了我们一定信心。他指出,虽然Twitter目前的数据量已经达到133TB且仍处于快速增长之中,但Basho公司已经接触过数据量达到PB级别的客户,并且在自己的平台上顺利完成了任务。只要国会图书馆能够追踪并总结出数据库容量每个月或每个季度的增长幅度,并根据结果为数据存储配备充足的硬件资源,那么Basho的数据库软件将有能力解决馆方的难题。

那么使用云方案可不可行呢?从理论上讲,国会图书馆可以采用以Amazon Web Services为代表的公共云资源保存这些数据,而且随着Twitter信息总量的不断增长,AWS会自动处理必要的硬件扩容工作。然而在Basho公司工程师Seth Thomas看来,这种方案的长期性价比值得商榷。由于馆方显然打算永久保存这些数据,所以混合式架构可能更具经济效益。也许更好的办法是将数据保存在本地,然后利用云服务实现分析功能。如此一来,馆方只需根据搜索量为响应请求所投入的动态资源支付费用即可,而终端系统也只需处理与请求量相对应的工作负载。

无论如何,国会图书馆已经下决心将这些Twitter信息纳入检索体系。而身为普通用户,我们要注意的则是--只要更新Twitter,信息就会被记录下来。

原文链接:http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

(责任编辑:蒙遗善)

时间: 2024-09-20 15:25:35

大数据探讨:如何整理1700亿条Twitter发布信息?的相关文章

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理 2016-05-17 Hadoop技术博文 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇.     资源列表:   关系数

贵安新区大数据产业规模达250亿元

5月28日,2017北京国际服务贸易交易会正式开幕.在本届会议展览区,贵州省贵安新区经济发展局副局长滕育栋在接受北京商报记者专访时透露,自成为国家服务贸易创新发展试点以来,贵安新区围绕大数据产业推动服贸产业发展,取得了阶段性成果.目前吸引了美国高通公司.华为数据中心等先后入驻,大数据产业规模达250亿元."未来,贵安新区还将通过搭建平台.丰富便利措施等手段,进一步推进大数据及服贸产业发展."滕育栋表示. 据了解,按照"大数据+顶层硬件"的理念,贵安新区积极夯实服务贸

2016年中国大数据市场规模为168亿元 增速达45%

近日,中国信息通信研究院发布了<中国大数据发展调查报告>,报告称,2016年中国大数据市场规模为168.0亿元,增速达到45%;预计2017-2020 年增速保持在30%以上. 在大数据应用方面,我国大部分企业均已意识到数据分析对企业发展的重要性.59.2%的受访企业已经成立了数据分析相关部门,同时,27.3%的企业正在计划成立数据部门. 因此大数据应用得到进一步普及,35.1% 的受访企业已经应用了大数据,与 2015 年调查结果相比有所提高:同时,22.9% 的企业计划将在未来1年内应用大

2020年大数据产业将达到8000亿元规模

2016中国大数据创新应用大会昨天在上海举行,据奥维云网董事长喻亮星披露,目前我国大数据产业规模在1500亿元,未来5年将进入"加速期",到2020年将达到8000亿元的规模,实现几何级增长. 从产业细分看,大数据产业分为基础层.软件层和应用层三大版块,但现在我国大数据应用层仅占10%的比重,明显是个"短板".现在,我国众多家电.商业.旅游企业都高度重视大数据的搜集和开发应用,中国家用电器协会秘书长徐东升表示,对于传统企业来说,大数据是传统往互联网+改造的必经之路,

百度大数据撬动地产千亿级市场

今年是中国互联网行业迈入的整整第20年.在过去,我倡导的理念一直是"凡是还没有被互联网改变的领域,未来一定会被互联网所改变."就在最近,我已经把我的理念修正为"互联网的价值的不再是自己产生很多新东西,而是对已有行业的潜力再次挖掘,用互联网的思维去重新提升传统行业." 理念的变化,基于互联网行业发展的一个基本判断.这个判断就是互联网影响传统行业的方式正在发生变化.过去,这个影响主要是打破信息的不对称性格局,竭尽所能透明一切信息.从最早的新闻资讯,到后来的电子商务,甚至

大数据的危害与安全——一条微博泄露王思聪的手机号

进入信息时代,步入网络时代,信息与数据迎来了大规模的爆发,成为了时代主角.也也让大数据更为人所知.海量的数据自然让企业以及网民都享受到了便利,但是潜藏的安全风险也不容忽视.就像那句老话说的,事物总有两面性. 大数据的危害:一条微博泄露土豪的手机号 某个知名白帽子曾举过这样一个例子:王思聪在微博上批露某电商送货太慢,还把订单号挂了出来.然而,通过这个订单号就能够查到这位"国民老公"的手机. 地址.邮箱,以及其他的大量个人信息."有一天他又晒图片,晒的是新收到的电脑桌.然后看到电

前三季度贵安新区完成大数据产业规模197.96亿元

日前,从贵安新区大数据产业发展领导小组办公室获悉,2016年1月-9月,贵安新区完成大数据产业规模总量197.96亿元,同比增长85%,其中信息基础设施建设投资14.96亿元,中国电信.中国移动.中国联通三大运营商数据中心一期项目已全部建成投运. 近年来,新区紧紧围绕实施数据资源聚集.智能终端制造.集成电路产业集聚.大数据产业创新应用.大数据与服务贸易融合发展.基础设施建设及大数据创新创业八大先行示范七项试验任务,构建五大保障体系,基本建成南方数据中心核心区.全国大数据产业集聚区.全国大数据应用

大数据背后是个万亿市场

2014年的GDP中消费占比已经超过了50%,标志着中国经济正在向市场经济转型,消费占GDP50%-70%是中等发达国家向市场经济过渡的一个表现,未来中国经济增长最大的引擎应该来源于消费,特别是个人消费.中国正在经历经济结构调整和城镇化,个人消费需求巨大,社会产品较为丰富,渠道也较为通畅,物流成本正在下降,运输能力正在提高.但是社会消费零售总额增加的还不够快,资源配置不平衡,社会整体消费水平还处于较低的水平.这些问题正在成为中国经济发展的难题,是企业和社会需要解决的问题. 大数据的商业应用将会帮

大数据5年规模将达8000亿

大数据的发展已经势不可挡.<2015年中国大数据发展调查报告>显示,2015年中国大数据市场规模达到115.9亿元,增速达38%.2015年还仅是大数据发展的一个元年,未来随着大数据从概念到应用,该行业还将迎来飞速的发展. 在资本市场,本来一直被追捧的大数据概念股,受大盘低迷影响,股价一蹶不振,甚至创下阶段新低,如亿阳信通(600289,股吧),从2015年6月2日的32.68元一路跌到2016年1月18日的11.53元,跌去了逾六成.但在2016年,随着大数据应用不断铺开,这些被错杀的股票也