HttpWebRequest爬虫怎么样获取Status Code:503异常标头的body,这个503请求抓包和浏览器有网页显示

问题描述

HttpWebRequest直接报异常了,怎么样忽略这个503异常,像StatusCode:200一样得到正文呢?

解决方案

解决方案二:
503的错误显示和200的不一样,不通浏览器返回都不同的,在其他位置。
解决方案三:
引用1楼xomix的回复:

503的错误显示和200的不一样,不通浏览器返回都不同的,在其他位置。

他这个只是StatusCode码不一样,网站故意发出来StatusCode503干扰机器人的,实际应该还是200的。但浏览器能显示正文,我机器人直接抛出503异常来了。。
解决方案四:
up..............
解决方案五:
那你trycatch下呗
解决方案六:
引用4楼starfd的回复:

那你trycatch下呗

try过,正文还是未赋值状态。返回的标头里有个set-cookie倒是自动增加了。不知道HttpWebRequest有没有开源,如果开源了的话我去找源码改下对503这处的反应代码应该OK了
解决方案七:
源码,你可以试下HttpClient类在503时会不会自动返回异常
解决方案八:
引用6楼starfd的回复:

源码,你可以试下HttpClient类在503时会不会自动返回异常

用socket和tcpclient方式能获取到正文。但他们不大好用,感觉也怪怪,不知道HttpWebRequest有没有忽略这异常当StatusCode是200的方式去处理的参数

时间: 2024-12-03 18:28:15

HttpWebRequest爬虫怎么样获取Status Code:503异常标头的body,这个503请求抓包和浏览器有网页显示的相关文章

网卡-请问,使用winpcap抓包,怎么设置可以使到达一个数据包后,应用程序尽快获取?

问题描述 请问,使用winpcap抓包,怎么设置可以使到达一个数据包后,应用程序尽快获取? 各位大神,请教一下,使用winpcap抓包,怎么设置可以使网卡到达一个数据包后,应用程序尽快获取? 解决方案 http://www.doc88.com/p-8905500110152.html

HTTP状态码->HTTP Status Code

HTTP可能大家都熟悉,就是超文本传输协议.浏览器通过HTTP与WEB Server通讯(也有一些其它软件比如IM使用HTTP协议传递数据),把我们的请求(HTTP Request)传递给服务器,服务器响应这个请求,返回应答(HTTP Response)以及我们需要的数据.大致就是这个样子了. 如果我们请求啥,服务器就返回啥,是乎就不需要HTTP Status codes了.但是事情往往不是那么简单.比如我们请求一个网页页面,可是服务器不存在这个页面,或者这个页面被转移到其它地方,或者服务器禁止

python 爬虫 怎么获取标签中的注释?我用得lxml解析html

问题描述 python 爬虫 怎么获取标签中的注释?我用得lxml解析html <span>当前第9127页 <!--共136904条-->  </span> 怎么才能获取注释里的值呢? tree=etree.HTML(page) pagenumber=tree.xpath(xpathStr) for i in pagenumber: totalpage=filter(str.isdigit,str(i)) 解决方案 注释不属于xml格式了,你拿到span节点后获取它的

编码-action获取表单信息异常

问题描述 action获取表单信息异常 十二月 18 2015 10:20:05 上午 com.opensymphony.xwork2.util.logging.jdk.JdkLogger error严重: Developer Notification (set struts.devMode to false to disable this message):Unexpected Exception caught setting 'name' on 'class action.LoginActi

[原创]分析解决lvs fullnat模式下后端服务器获取真实IP地址异常问题

摘要 分析解决lvs fullnat模式下少量的请求记录client IP不是用户真实的IP地址问题. 原创文章:来自分析lvs fullnat模式下后端服务器获取真实IP地址异常问题 问题背景 lvs fullnat模式下观察后端服务器realserver http/https业务运行系统日志,有时候可以发现有少量的请求记录的client IP不是用户真实的IP地址(存在但出现的概率很小,增加了问题排查的难度),而是属于lvs主机私有的IP地址.关于fullnat的简介可以参考http://w

javascript-Python 爬虫如何获取onclick(非url链接)之后网页?

问题描述 Python 爬虫如何获取onclick(非url链接)之后网页? Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS Tripadvisor 网站

javascript-微信支付js获取用户code

问题描述 微信支付js获取用户code 今天微信开发前段需要发送url获取用户code,然后在得到openId,沃采用得方式是两个 一样得页面,回掉地址是第二个页面,不知道还有没有其他方式,在线等... 解决方案 关于微信支付的error code

javascript-python爬虫如何抓取包含JavaScript的网页中的信息

问题描述 python爬虫如何抓取包含JavaScript的网页中的信息 这里本科生一枚..做本研要求抓取一些数据碰到了一些问题求指教> <我想要抓取汽车之家上关于供应商的一些数据,然后在车型详情页里找到了关于供应商的框架源代码如下(只截取有用部分):<br> //属性<br> document.domain = "autohome.com.cn";<br> var page=1;<br> var parameters = {

请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始,那么这些种子URL怎样获取的?

问题描述 请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始,那么这些种子URL怎样获取的? 在很多的SEO教程中谈到,数据抓取系统(spider)会从一些种子URL开始进行搜索网页, 那么这些种子URL从哪里可以获取? 解决方案 这个种子应该是自己设定的.之后爬虫根据这个种子url爬其他资源