腾讯、网易、新浪新闻网站爬虫与存储

问题描述

怎么爬取腾讯、网易、新浪新闻网站的标题、内容、时间等字段。现在要做一个类似今日头条的项目。但是内容都是从各个新闻门户网站抓取我的想法是:比如要爬取腾讯、网易、新浪的新闻,后台启动三个线程,分别去一个网站爬,http://news.qq.com/news.163.comnews.sina.com.cn以腾讯新闻为例:要闻:http://news.qq.com/a/20160302/057454.htm财经:http://finance.qq.com/a/20160304/015894.htm体育:http://sports.qq.com/a/20160304/052773.htm可以看出,格式为:http://类别.qq.com/a/年月日/新闻ID.htm现在的问题是:1、如果想看今天的财经新闻有哪些,我想到的是:http://finance.qq.com/a/20160304,但是无法访问。2、既然要做新闻,实时性要求肯定比较高,多久爬取一次比较合适,怎么爬取最新的数据。假如一小时爬取一次,怎么只爬最新数据,过滤旧数据。3、一个新闻的页面是http://news.qq.com/a/20160304/004326.htm,怎么获取新闻的标题、内容、时间等字段。难道后台用http请求,然后用正则去匹配?4、爬取的数据怎么存储,是存数据库还是HDFS,新闻里面可能有图片、视频等东西。是保存图片和视频的地址,还是说下载下来保存在本地。5、爬虫用什么做比较好,python还是java,或者有没有什么比较好的框架可以用用。要求分布式的。有没有做过类似爬虫的朋友给点经验或者探讨一下。

解决方案

解决方案二:
javanutch开源库
解决方案三:
自己顶一下~~

时间: 2024-10-31 04:28:45

腾讯、网易、新浪新闻网站爬虫与存储的相关文章

腾讯与新浪博弈:谁会是微博市场的最后赢家

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 自从新浪摔先在中国推出微博之后,许多企业纷纷效仿,包括腾讯.网易.搜狐等大型门户.其中腾讯以其庞大的QQ用户数量为基础,迅速占领微博大部分市场, 成为新浪强劲的竞争对手.而在腾讯刚刚推出微博的时候,新浪的高管已经开始担忧微博这块大蛋糕会被腾讯抢走.现在,微博这块蛋糕就剩下新浪和腾讯的博弈 了,其他几大公司不足为虑,那么腾讯和新浪,最后谁能夺取

腾讯到新浪开微博,不是讨骂是讨喜

文/李东楼(ID:lidonglou) 今日腾讯公司官方微博登陆新浪微博,发出第一条微博,名为讨骂.引来业界一片惊呼.事实上,在新浪微博早在两天前,我同事跟我说,在新浪发了一条"张志东离职"的消息就在几分钟之内收到了腾讯用户团队的评论,澄清张志东是转岗而非离职.我就知道,腾讯终于来了.那此次腾讯所为而来,是来新浪的地盘砸场子吗?还是真来倾听用户声音了?且听东楼一一分析. 第一,抢占舆论阵地,便于公关战中防御型回击 微博业务早已是新浪一家独家,搜狐.网易早已退出竞争舞台,而腾讯微博虽然坚

TechWeb:腾讯在新浪开通官方微博

腾讯在新浪开通其官方微博位 [TechWeb消息]11月3日晚间消息,正在腾讯与360的"大战"火热之时,有 网友爆料称,腾讯已在新浪开通其官方微博. TechWeb登陆新浪微博(http://t.sina.com.cn)发现,腾讯在注册了新浪的官方微博之后快速贴出了<致广大QQ用户的一封信>. 在四大门户网站中,新浪是最早推出微博业务的.2009年8月,新浪启动微博测试,2010年以来,搜狐.腾讯.网易相继推出微博产品.来自艾瑞的数据显示,2010年3月-6月,国内微博市

如何做好微博产品的用户活跃度:腾讯vs新浪

前言 用微博的时间不长,因为一直未曾发现自己是个话唠--也许是不愿意承认吧--好吧,我现在面对现实了:) 其实在很早的时候,也粗略的比较过两个平台的一些细节体验,大赞了腾讯微博的体验设计. 本文主要以腾讯和新浪为例,从体验和产品两方面讨论一下如何做微博产品的用户活跃度. 在两个微博分别使用了一段时间之后我发现一个现象,在投入相同的精力.获得差不多的关注度的基础上,新浪微博的用户活跃度要比腾讯的高出不少.这体现在好友的发表.评论.转发和回复上.当然,这还没有大量数据的支持,仅是个人的体会.但却由此

腾讯vs新浪:谁正赢得中国的微博市场?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 中国现在在全世界所有国家中有着最庞大的互联网用户--4.2亿人.(译者按:这是2010年6月的统计数据.)一些最新的统计数据显示这一数字已 高达4.85亿.(译者按:根据中国互联网络信息中心(CNNIC)2011年7月19日发布的<第28次中国互联网络发展状况统计报告>中国现在在全世界所有国家中有着最庞大的互联网用户--4.2亿人.(译者按:这是2010年6月的统计数据.)一些最新的统计数据显示这一数 字已高达4.85亿.(译者按:根据中国互联网

徐静蕾微博落户腾讯 是PK姚晨还是腾讯PK新浪?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 时下微博已经不再是一个陌生的名词了,从明星到草根都可以在微博上发表见解和看法.于是一时之间各大门户网站纷纷效仿,大有玩转微博的势头,意欲在微博上寻找到新的突破点.我们现在都知道,几大门户网站中,微博做的比较好的就是新浪.腾讯和搜狐了,各自暗中较劲的同时不乏有特色的宣传推广.今天我就最近几天发生在腾讯微博上的徐静蕾入驻腾讯微博一事谈下自己的看法

腾讯和新浪两大互联网门户相继改版,另一门户搜狐也在酝酿改版

社会化大潮之下,现有的互联网门户模式遭遇大考,四大门户也意识到了这一点,改版就是为了谋求突破.腾讯的改版,与新浪的改版,可以说是自成一派,哪一模式能够引领下一代互联网门户高速前行? 在寻找答案之前,我们不妨先看一下互联网行业当前的格局及未来的趋势. 在以Facebook为代表的Web2.0时代,用户习惯正发生颠覆性的改变,互联网门户模式单一.粘性差的短板显现出来.在国内,移动终端的普及,微博等社会化应用的兴起,传统门户的用户被大量分流.在这个流量为王的时代,用户被分流对互联网门户来说虽然不能说是

淘宝、百度、腾讯和新浪开放平台浅析

国内开放平台的运作模式主要有: 1.开放APP,引入第三方应用在自己的平台上,赚的的更多的用户和流量,还可以和第三方分成: 2.开放login,降低用户进入第三方的注册门槛,同时也能圈住自己的核心用户群: 3.开放数据源(主要是搜索领域),引入第三方优质数据源填充自己的搜索结果,会做一定的展现方式优化,第三方要流量,平台要数据,互惠互利: 国内具有较大影响力的开放平台主要有: 淘宝开放平台:http://open.taobao.com/ 百度开放平台:http://open.baidu.com/

中国的社交图谱腾讯与新浪之争

随着Fabook霸主地位的确认,在西方国家,围绕社交图谱的竞争现在已经告一段落了.说Facebook是世界性的社交图谱,毋庸置疑,而在国内,QQ就是中国的社交图谱.在中国,腾讯长期以来在社交领域作为领跑者,但它现在正受到来自中国最早的门户网站之一--新浪的挑战. 在过去一年的中国互联网中,新浪微博是表现最为突出的,达到了2.5亿注册用户,2011年第三季度日活跃用户大约有2500万.中国的主导媒体对事件的报道未必会那么全面,所以新浪微博就变成了重大新闻事件和评论的主要来源,也是明星和文化名人等消