网络爬虫-wget爬取网页失败问题

问题描述

wget爬取网页失败问题

用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_enter=0,就是在百度首页里输入关键字后得到的页面,
我的wget参数为 -p -A txt -U Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3 -t 5 -T 120,,,跪求大神看看哪有问题

解决方案

Python 3 手动设置 Cookie 爬取网页内容
一个简爬取网页源文件的Demo
python 爬取网页正文

解决方案二:

页面可能是异步返回ajax,所有直接获取不到对应页面内容

解决方案三:

把你的URL用单引号括起来 再执行

时间: 2024-08-29 11:41:25

网络爬虫-wget爬取网页失败问题的相关文章

python-Python爬虫爬取网页源代码为空,求问原因&解决方案(向)

问题描述 Python爬虫爬取网页源代码为空,求问原因&解决方案(向) 代码如下:import urllibimport urllib2import re url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'req = urllib2.Request(url)try: html = urllib2.urlopen(req).read() print htmlexcept urllib2.HTTPError e: print '

如何用python 2和python 3伪装浏览器爬取网页

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的. 最基础的抓取: #! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://w

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

数据-python 实现爬取网页的审查元素,求大神路过

问题描述 python 实现爬取网页的审查元素,求大神路过 网页源代码只有 JavaScript,没有我想要的数据.只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码.求大神路过 解决方案 selenium拿到数据后,用lxml来解析节点,获取你对应的数据 解决方案二: beautifulsoup试试吧.. 解决方案三: 我发现了一个在云上写和运行爬虫的网站,http://www.shenjianshou.cn/.被吓到了,之前就有过这种想法,终于有人帮

java-利用crawler4j做网络爬虫如何抓取特定标题和发表时间

问题描述 利用crawler4j做网络爬虫如何抓取特定标题和发表时间 利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向 解决方案 利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行.特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据. 解决方案二: 如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章.这个不同的网站是不同的. 虽然理论上可以通过L

ubuntu上python无法爬取网页

问题描述 ubuntu上python无法爬取网页 在ubuntu12.04下写了个简单的python测试代码: -*- coding: UTF-8 -*- import time,urllib2,urllib,StringIO,sys,os,multiprocessing,sqlite3 if name == '__main__': stockUrl="http://www.baidu.com" stockWeb = urllib.urlopen(stockUrl).read() pr

浅谈Python爬取网页的编码处理_python

背景 中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题 很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j

正则-如何用Java爬取网页的copyright?

问题描述 如何用Java爬取网页的copyright? 谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取 请求大家支援QAQ 解决方案 jsoup import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public static void main(String[] args) throws IOException { Document d

如何用nutch爬取网页评论

问题描述 如何用nutch爬取网页评论 如何用nutch1.9爬取电商网站的评论.就是爬取网页的指定内容.