获得网页编码格式时charset取不到

问题描述

html网页的内容大致如下： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>CSDN首页 </title> ... </head> <body> ..... </html> 我使用以下语句抓取类似上面的网页： URL url = new URL("http://www.csdn.net"); HttpURLConnection connection = (HttpURLConnection)url.openConnection(); //建立连接后，使用下面两句取得网页的编码格式 String contentType = connection.getHeaderField("Content-Type"); contentType = connection.getContentType(); 无论是哪一句，得到的contentType的值都是text/html，而不包含后面的charset=gb2312，这是为什么？我注意到一个问题，content="text/html; charset=gb2312"这里，在;和charset之间有一个空格，是否因为这个空格的缘故，而不能得到content-type的准确值还有没有其他的办法可以得到页面的编码字符集？

解决方案

可以用 HttpClient jar包 GetMethod method = new GetMethod(url); String charset = null; if(StringUtils.isEmpty(encoding)){ charset = method.getRequestCharSet(); if("ISO-8859-1".equalsIgnoreCase(charset)) //未指定编码时返回ISO-8859-1, 改为默认的GB2312 charset = "GB2312"; }
解决方案二：
String charset = connection.getContentEncoding();
解决方案三：
我用的是：httpclient的HttpMethodBase method;method = new GetMethod(url);identifyAsDefaultBrowser(method);charset = method.getResponseCharSet();

时间： 2024-12-04 17:43:33

获得网页编码格式时charset取不到

问题描述

解决方案

获得网页编码格式时charset取不到的相关文章

python-为何用Python做爬虫时抓取下来的页面跟源代码不一样？

网页排版时常用的5个CSS基础

网页设计时必须思考的5个网页设计目标

浏览器如何使网页收藏时只显示图标

Asp.net 如何让网页运行时就显示和按F11一样的全屏效果

简单的web开发问题-网页开发时，如何提示密码不正确？

微信网页授权-微信进行网页授权时，拿到了code,怎么获取不到openid?(如图)

php通过curl单独抓取网页可以，抓取多个就会出错

firefox-项目中使用kindeditor后台使用的jsp但是多图上传时session取不到值，怎么解决？急急急