关于URL URLCONNECTION或httpclient抓取网页全部内容时,中文丢失问题

问题描述

比如我抓取下来的内容应该是<li>唱片公司:环球音乐</li>,结果用httpclient抓下来之后变成<li>唱片公司:环球音乐</li>用URL或者UrlConnection也一样的问题,直接右键查看网页源代码也是这样的问题...求解 问题补充:谢谢maowei009,但是我把环球音乐贴进记事本,然后用ie或者火狐打开,可以正常显示"环球音乐"四个字,求解,这是何种编码格式?在google中贴这些也能正常显示中文....头大啊

解决方案

那应该就是编码问题了!
解决方案二:
你把response的编码设置成'gbk'或者'utf-8'看看,如果这两个都不行,你就看下你IE浏览器到默认编码是什么,你不是说在IE下可以显示么,你先试试啊
解决方案三:
这些文字应该是被设置为关键文字等策略了,他传过来经过自己的加密,然后要通过自己的JS渲染才能正确显示,这也是为了网页数据的安全吧。像有些网页你抓取的内容过大,或者到达一定次数,他就会将你的操作屏蔽,具体的我也没研究过他们怎么实现的,不过应该是根据你的IP来封的!

时间: 2024-10-25 13:32:26

关于URL URLCONNECTION或httpclient抓取网页全部内容时,中文丢失问题的相关文章

C#抓取网页HTML内容

网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Net; using System.Text; using System.IO; using System.Text.RegularExpressions; n

httpclient抓取网页碰到403怎么解决

问题描述 packagetools.crawler;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.util.zip.GZIPInputStream;importorg.apache.commons.httpclient.HttpClient;importorg.apache.commons.httpclient.methods.GetMethod;pub

HttpClient抓取网页的两种方式_应用技巧

一.利用NodeFilter对网页进行分析 1.生成一个Parser a.通过url提取网络上的网页 复制代码 代码如下: Parser parser = new Parser(); parser.setURL("http://www.yahoo.com.cn"); b.提取本地网页文件 通过读文件把网页文件转化成字符串: 复制代码 代码如下: Parser parser=Parser.createParser(html,charset); 2.利用NodeFilter做一个filte

php中如何抓取网页图片

PHP是一门很容易上手的Web编程语言.PHP学习成本很低,能够迅速开发各种Web应用,是一个很优秀的工具. 尽管很多人觉得PHP缺点很多,quick and dirty 之类的,但是"这个世界上只有两种编程语言,一种是饱受争议的,一种是没人用的",不是吗?只要能够把事情做好的工具,就是好工具.PHP就是这么一个优秀的语言工具. 01.<?php 02.header('content-type:text/html;charset=utf-8');03. set_time_limi

tika 抓取pdf文件内容如何区分页眉页脚和内容

问题描述 tika抓取pdf文件内容时,内容一把抓,无法区分页眉页脚和内容啊,各位大神,请指教啊

网络爬虫-用Java来抓取网页实例中HttpClient类的问题

问题描述 用Java来抓取网页实例中HttpClient类的问题 报这么一大堆错误我也是受不了了...... 主要的问题应该是HttpClient类这个东西,在网上查了这个类是httpclient-2.x.jar包的产物,我导入的是httpclient-4.2.2.jar和httpcore-4.2.2.jar包,而这两个新的工具包并不包含HttpClient类,查阅了Java API帮助文档后,自己并没有找到HttpClient类的替代类,而是一堆接口和抽象类,由于是刚开始写这个,所以有点懵.

用Python编写网络爬虫(一):抓取网页的含义和URL基本构成

一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来. 这样看来,网络爬虫就是一个爬行程序,一个抓

java爬虫-请求一个url,用java抓取所有网页链接以及内容。

问题描述 请求一个url,用java抓取所有网页链接以及内容. 比如用这个当实例:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml.(新手,望多多关照) 解决方案 通过java.net.URL类抓取某个网页的内容java-抓取指定URL网页的内容 解决方案二: http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml这个网址下面有好几个子链接网页,有好几页,要求全部抓到.. 解

采集-Java HTTP Client 抓取网页,这个网页无论用什么编码都是乱码?

问题描述 Java HTTP Client 抓取网页,这个网页无论用什么编码都是乱码? http://www.licai.com/xuetang/CiDian.aspx?dj=1&type=&page=1 client.executeMethod(get); // String statusText = get.getStatusText(); //System.out.println("Test.main():--->" + statusText); Syste