问题描述
怎么爬取腾讯、网易、新浪新闻网站的标题、内容、时间等字段。现在要做一个类似今日头条的项目。但是内容都是从各个新闻门户网站抓取我的想法是:比如要爬取腾讯、网易、新浪的新闻,后台启动三个线程,分别去一个网站爬,http://news.qq.com/news.163.comnews.sina.com.cn以腾讯新闻为例:要闻:http://news.qq.com/a/20160302/057454.htm财经:http://finance.qq.com/a/20160304/015894.htm体育:http://sports.qq.com/a/20160304/052773.htm可以看出,格式为:http://类别.qq.com/a/年月日/新闻ID.htm现在的问题是:1、如果想看今天的财经新闻有哪些,我想到的是:http://finance.qq.com/a/20160304,但是无法访问。2、既然要做新闻,实时性要求肯定比较高,多久爬取一次比较合适,怎么爬取最新的数据。假如一小时爬取一次,怎么只爬最新数据,过滤旧数据。3、一个新闻的页面是http://news.qq.com/a/20160304/004326.htm,怎么获取新闻的标题、内容、时间等字段。难道后台用http请求,然后用正则去匹配?4、爬取的数据怎么存储,是存数据库还是HDFS,新闻里面可能有图片、视频等东西。是保存图片和视频的地址,还是说下载下来保存在本地。5、爬虫用什么做比较好,python还是java,或者有没有什么比较好的框架可以用用。要求分布式的。有没有做过类似爬虫的朋友给点经验或者探讨一下。
解决方案
解决方案二:
javanutch开源库
解决方案三:
自己顶一下~~
时间: 2024-10-31 04:28:45