问题描述
RT 想用java写个爬虫 主要想爬取微博的数据 求指教
解决方案
1、页面请求使用httpclient比较好,如果涉及多线程最好使用4.x版本2、页面解析,推荐使用jsoup,功能比较强大另外,针对网络爬虫上面两点是基本的,但是微博数据是需要登录才能获取的,所以需要考虑模拟登录
解决方案二:
这个基本上只能自己做的玩玩,大规模的访问任何微博应该都有ip或者次数限制的,用httpclient+htmlparser就ok了
解决方案三:
apache natch
解决方案四:
用httppaser好像有这方面的功能吧
时间: 2024-12-07 01:30:18