用C#.net抓取网页时为什么出现这种问题?怎么抓了电信的页面去了呢?

问题描述

Uriurl=newUri("http://www.baidu.com");WebRequestrequestPage=WebRequest.Create(url);//发送absoluteUri创建请求对象//requestPage.Timeout=1000;WebResponsereponsePage=requestPage.GetResponse();StreamnewsStream=reponsePage.GetResponseStream();//读取页面流Encodingencode=System.Text.Encoding.GetEncoding("gb2312");StreamReaderreader=newStreamReader(newsStream,encode);//读取获得内容流stringboardStream=reader.ReadToEnd();//将内容流转换为文本并存入变量BoardStream,即为所需要的数据流为什么经常读取到的是下面的页面?这好像是电信的一个页面.其中zhsbwensen是我上网的账号,为什么会这样呢?我该怎么做?<html><head><metahttp-equiv="pragma"content="no-cache"/><metahttp-equiv="Cache-Control"content="no-store,no-cache,must-revalidate,post-check=0,pre-check=0,max-age=0"/><metahttp-equiv="expires"content="-1"/><metahttp-equiv="refresh"content="2"/></head><body><iframesrc="about:blank"width="0"height="0"frameborder="0"style="display:none"></iframe><scriptlanguage="javascript">window.frames[0].location="http://219.131.193.229/update/step1.aspx?p="+"zhsbwensen|"+Math.floor((newDate()).getTime()/1000)+"|"+navigator.appMinorVersion+"|"+screen.availHeight+"|"+screen.availWidth+"|"+screen.colorDepth+"|"+screen.height+"|"+screen.width;</script></body></html>

解决方案

解决方案二:

不会吧...我以前爬取百度的图片时没有出现这个问题.........
解决方案三:

地址错了导致的破114网,你在浏览器输入错误网址看看
解决方案四:

不单是抓百度啊,抓其它也一样啊.在浏览器上是可以的.所以请大家看看我的代码对了没有
解决方案五:

你把生成的地址复制到浏览器会不会呢
解决方案六:

浏览器没有问题啊.
解决方案七:

有时有,有时没有,怎么回事呢?
解决方案八:

<html><head><metahttp-equiv="pragma"content="no-cache"/><metahttp-equiv="Cache-Control"content="no-store,no-cache,must-revalidate,post-check=0,pre-check=0,max-age=0"/><metahttp-equiv="expires"content="-1"/><metahttp-equiv="refresh"content="2"/></head><body><iframesrc="about:blank"width="0"height="0"frameborder="0"style="display:none"></iframe><scriptlanguage="javascript">window.frames[0].location="http://219.131.193.229/update/step1.aspx?p="+"zhsblius8|"+Math.floor((newDate()).getTime()/1000)+"|"+navigator.appMinorVersion+"|"+screen.availHeight+"|"+screen.availWidth+"|"+screen.colorDepth+"|"+screen.height+"|"+screen.width;</script></body></html>

时间: 2024-11-02 14:28:45

用C#.net抓取网页时为什么出现这种问题?怎么抓了电信的页面去了呢?的相关文章

关于使用webbrowser控件批量抓取网页时遇到的问题

问题描述 由于有很多网址,并且很多都是带有js跳转的动态页面,于是只能使用浏览器对象.现在的工作方式是,以每个线程配备一个browser对象,所有线程依次从文件中获取需要访问的网址,并且访问时间是被限定的如果超时,则判定访问失败,然后将访问成功与否的结果输出到另一个文件进行汇总.这样的工作方式就是,当启动50个线程时,就有50个webbrowser在运行然而现在遇到的问题是,不同的线程数抓取的成功率也会不同.比如现在有100个网址,2个线程时只失败6个:而20个线程时则失败17个.这是为何?是网

python抓取网页时字符集转换问题处理方案分享_python

问题提出:     有时候我们采集网页,处理完毕后将字符串保存到文件或者写入数据库,这时候需要制定字符串的编码,如果采集网页的编码是gb2312,而我们的数据库是utf-8的,这样不做任何处理直接插入数据库可能会乱码(没测试过,不知道数据库会不会自动转码),我们需要手动将gb2312转换成utf-8. 首先我们知道,python里的字符默认是ascii码,英文当然没问题啦,碰到中文的时候立马给跪. 不知道你还记不记得,python里打印中文汉字的时候需要在字符串前面加 u: print u"来搞

重开一贴,非常之急.(在线等) 用C#.net写爬虫抓取网页时为什么出现这种问题?

问题描述 Uriurl=newUri("http://www.baidu.com");WebRequestrequestPage=WebRequest.Create(url);//发送absoluteUri创建请求对象//requestPage.Timeout=1000;WebResponsereponsePage=requestPage.GetResponse();StreamnewsStream=reponsePage.GetResponseStream();//读取页面流Enco

utf8-nodejs抓取正文时乱码和无用标签

问题描述 nodejs抓取正文时乱码和无用标签 正在学习用nodejs抓取新闻,但是在抓取正文这里卡住了. 输出时,输出了一堆乱码+各种标签-- 已解决乱码问题.求解如何去掉里面的无用标签? 检查发现编码 <meta charset="gb2312" /> 求问怎么去掉里面的各种标签并且转换成UTF-8呢? 使用iconv-lite库来转码 request({ url: 'http://news.163.com/15/0405/09/AME6CKER0001124J.htm

抓取网页怎么获取尺寸大小

问题描述 抓取网页时,怎么从抓下来的数据中获取到网页的尺寸大小(和里面元素的尺寸大小) 解决方案 解决方案二:用正则表达式获取width和height后面的数据即可.解决方案三:你看到几个网页其内部的细节.布局是固定大小的呢?

网页抓取-抓取网页相关的应用程序

问题描述 抓取网页相关的应用程序 我需要抓取海词典典网站上所有四级词汇在"词汇搭配"那一栏的内容,谁能帮我做个解决这个问题的软件,我的QQ邮箱是1036418603@qq.com

PHP抓取网页、解析HTML常用的方法总结

  这篇文章主要介绍了PHP抓取网页.解析HTML常用的方法总结,本文只是对可以实现这两个需求的方法作了总结,只介绍方法,不介绍如何实现,需要的朋友可以参考下 概述 爬虫是我们在做程序时经常会遇到的一种功能.PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结. PHP实现爬虫主要方法 1.file()函数 2.file_get_contents()函数 3.fopen()-

php抓取网页

用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码 <?php $url = "http://www.phpzixue.cn"; $contents = file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent =

PHP的cURL库功能简介:抓取网页,POST数据及其他

  使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. ﹤?php phpinfo(); ?﹥ 如果你可以在网