httpwebrequest网页抓取数据乱码

问题描述

httpwebrequest网页抓取数据乱码

protected void Page_Load(object sender, EventArgs e)
{
string url = "http://www.veryzhun.com/planenumber.html";
string strall = HttpGet(url);
//string srr1 = GetHtmlFromGet(url,Encoding.GetEncoding("gb2312"));
}

    public static string HttpGet(string url)
    {
        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
        request.Method = "GET";
        request.ContentType = "text/html; charset=gb2312";

        HttpWebResponse response = (HttpWebResponse)request.GetResponse();
        Stream myResponseStream = response.GetResponseStream();
        StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.GetEncoding("gb2312"));
        string retString = myStreamReader.ReadToEnd();
        myStreamReader.Close();
        myResponseStream.Close();

        return retString;
    }

            我是新手  不知道为什么还是乱码  希望给位指点

解决方案

request.ContentType = "text/html; charset=gb2312";
你设置这个没用,要看服务器返回的是什么编码的。如果服务器没有指定,那么你各种编码都试下。

时间: 2024-12-05 09:30:01

httpwebrequest网页抓取数据乱码的相关文章

源代码乱码问题-抓取数据乱码,不是编码问题

问题描述 抓取数据乱码,不是编码问题 我用WebClient抓取搜房网的数据:http://esf.sh.soufun.com/house/ ,获取到的都是乱码,我确定不是编码问题,几种编码都实验过,确定编码是gb2312.求教各位大哥大姐,怎么能获取的正确的源代码 解决方案 我靠,这是非法的,就是知道也不敢说啊.

从网页抓取数据的一般方法

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据.这两个工具应该说是比较简单易懂的.这里就不再介绍了.主要关注的内容是header和post的内容.一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西. httplook和httpwacth网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个

nodejs爬虫抓取数据乱码问题总结_node.js

一.非UTF-8页面处理. 1.背景 windows-1251编码 比如俄语网站:https://vk.com/cciinniikk 可耻地发现是这种编码 所有这里主要说的是 Windows-1251(cp1251)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~ 2.解决方案 1. 使用js原生编码转换 但是我现在还没找到办法哈.. 如果是utf-8转window-1251还可以http://stackoverflow.com/questions/2696481/encoding

网页抓取处理乱码遇到的问题

问题描述 本程序想实现的是把网页保存到本地没有乱码,并能成功的提取网页的标题和关键字.若把"注释一"下面的几行代码注释掉,"注释二"下的while语句内容就能正常运行,从中解析其他网页内容:若"注释一"内容不注释,"注释二"下的while语句内容不能正常运行,不能从本网页中解析url地址.publicvoidgetWebByUrl(StringstrUrl,Stringcharset,StringfileIndex){try{

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便 只需引进依赖 例如 <dependenc

网页抓取工具之数据预处理

提取的数据还不能直接拿来用?文件还没有被下载?格式等都还不符合要求?别着急,网页抓取工具火车采集器自有应对方案--数据处理. 图片1.png 网页抓取工具的数据处理功能包括三个部分,分别是内容处理.文件下载.内容过滤.下面依次给大家介绍: 1.内容处理:对从内容页面提取的数据进行替换.标签过滤.分词等进一步处理,我们可以同时添加多个操作,但这里需要注意的是,有多个操作时是按照从上到下的顺序来执行,也就是说,上个步骤的结果会作为下个步骤的参数. 下面来逐个介绍一下: ①提取内容为空:如果通过前面的

善用网页抓取工具,数据轻松收入囊中

数据已走进各行各业并得到了广泛应用,伴随着应用而来的则是对数据的获取和准确挖掘.我们可应用的数据多来自内部资源库以及外部载体,内部数据整合即用,而外部数据却需要先行获取.外部数据的最大载体就是互联网,网页中每天难以数计的增量数据里,就包含着许多对我们有利用价值的信息. 如何最高效地从海量信息里获取数据呢?网页抓取工具火车采集器有高招,以自动化的智能工具代替人工的数据收集,当然更高效也更准确. 一.数据抓取的通用性 作为通用的网页抓取工具,火车采集器基于源代码的操作原理让可抓取的网页类型达到99%

(急急急)java网页抓取 htmlParser 新华网空格变成??? 汉字不乱码 具体请看内容

问题描述 privatefinalstaticStringCRLF=System.getProperty("line.separator");URLur=newURL("http://news.xinhuanet.com/theory/2011-03/01/c_121133526.htm");InputStreaminstr=ur.openStream();InputStreamReaderisr=newInputStreamReader(instr,utf);Bu

使用Scrapy抓取数据

Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 官方主页: http://www.scrapy.org/ 中文文档:Scrapy 0.22 文档 GitHub项目主页:https://github.com/scrapy/scrapy Scrapy 使用了 Twisted 异步网络库来处理网络通讯.整体架构大致如下(注:图片来自互联网): Scrapy主要包括了以下