问题描述
- wget爬取网页失败问题
-
用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_enter=0,就是在百度首页里输入关键字后得到的页面,
我的wget参数为 -p -A txt -U Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3 -t 5 -T 120,,,跪求大神看看哪有问题
解决方案
Python 3 手动设置 Cookie 爬取网页内容
一个简爬取网页源文件的Demo
python 爬取网页正文
解决方案二:
页面可能是异步返回ajax,所有直接获取不到对应页面内容
解决方案三:
把你的URL用单引号括起来 再执行
时间: 2024-08-29 11:41:25