urllib2获取网页信息时的中文编码

问题描述

请问用urllib2.open()获取网页信息的时候,中文不能显示,怎么解决?网上搜索了一些没搞定,请教一下out[4] = ' <meta name="keyword" content="JavaEye,IT,xe5xbcx80xe5x8fx91,xe4xbaxa4xe6xb5x81,xe7xa4xbexe5x8cxba,java, ruby, ajax, agile" />n'都是这种显示,不知道怎么解决,谢谢 问题补充:RyanPoy 写道

解决方案

首先, 道个歉. 原因是昨天手快, 敲错了. 这个字体是: utf8的. 不是gbk的.然后, 终端字符集是和系统相关的. 在bsd下面, csh, 修改 .cshrc: setenv LANG zh_CN.UTF-8在linux下面, bash, 修改 .bashrc:export LANG="zh_CN.UTF-8"在mac下面, bash, 修改 .bash_profile:export LANG="zh_CN.UTF-8"在win下面, 抱歉, 我也不知道. 如果你是用的win, 那么, 你这样子试试看: print out[4].decode('utf-8').encode('gbk')
解决方案二:
这个编码是正确的,看着是gbk编码。估计你是终端设置的字符集不对。

时间: 2024-10-02 15:31:31

urllib2获取网页信息时的中文编码的相关文章

php curl登陆qq后获取用户信息时证书错误

这篇文章主要介绍了php curl登陆qq后获取用户信息时证书错误,需要的朋友可以参考下 今晚开放ecmall商城的QQ登陆功能,在回调时产生错误,file_get_contents函数执行时,没有抓取到正确的信息,于是改用curl,但是提示证书错误. 在网上找到了解决方法,就是去掉证书认证. 代码如下: curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE)

java-求 htmlunit + jsoup 获取网页信息实例

问题描述 求 htmlunit + jsoup 获取网页信息实例 求 htmlunit + jsoup 获取网页信息实例 包括htnlunit获取js里的内容

获取网页信息求教

问题描述 获取网址:Http://opac.nlc.cn/F获取查询后的书目信息,查询结果要切换到MARC格式后获取,需要获取的内容在网页源码中找不到,应该用什么方法获取呢 解决方案 解决方案二:用fiddler调试下,看是不是ajax请求获取的数据.解决方案三:怎么样确定是AJAX请求获取的数据呢或者说如果是AJAX请求获取的怎样取得需要的信息呢解决方案四:引用1楼caozhy的回复: 用fiddler调试下,看是不是ajax请求获取的数据. 怎么样确定是AJAX请求获取的数据呢或者说如果是A

myeclipse中servlet获取网页信息。

问题描述 大侠们,跪求了.相当于页面中右击获取源代码那样的信息.

php curl登陆qq后获取用户信息时证书错误_php实例

今晚开放ecmall商城的QQ登陆功能,在回调时产生错误,file_get_contents函数执行时,没有抓取到正确的信息,于是改用curl,但是提示证书错误. 在网上找到了解决方法,就是去掉证书认证. 复制代码 代码如下: curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE); 该种方法可行. 网上还有另外一种说法,就是使用 复制代码 代码如下: cur

请问C#如何判断网页能否正常访问,以及如何获取网页上的错误信息。

问题描述 请问C#如何判断网页能否正常访问,以及如何获取网页上的错误信息.例如:网页能访问,其中部分模块报错,如读数据库报错.这些信息如何获取?另外,我通过ie可以访问一个网站的首页,速度较慢,但是我通过c#的ping命令获取到的信息是超时(这个应该是防火墙的原因吧),用HttpWebRequest获取网页信息也是无法访问,这应该如何解决? 解决方案 解决方案二:错误消息自己捕获记录,用log4net好点http访问和ping没有关系解决方案三:我是远程判断别人的网页是否有错

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

html5获取地理位置信息API

html5获取地理位置信息API       在HTML5中,可以看下如何使用Geolocation API来获得用户的地理位置信息,如果该浏览器支持的话,且设备具有定位功能,就能够直接使用这组API来获取当前位置的信息,该API可以应用在移动设备上的地理定位:为window.navigator 对象新增了一个geolocation属性,可以使用Geolocation API来对该属性进行访问.window.navigator对象中的geolocation属性有三个方法如下: 第一个方法是:ge

c#获取网页中的图片已实现,如何不通过点击按钮让图片自动绑定到picturebox中

问题描述 c#获取网页中的图片已实现,如何不通过点击按钮让图片自动绑定到picturebox中也就是说,利用webborwse获取网页信息后,不通过任何操作就可以让图片显示到pixturebox中 解决方案 解决方案二:在webBrowser的DocumentCompleted事件中添加就行.解决方案三:你是如何通过点击按钮过去图片的.还是用同样的方法呀,就在1楼说的那个事件里,下载图片就行了.