解决PHP中file_get_contents抓取网页中文乱码问题

根据网上有朋友介绍说原因可能是服务器开了GZIP压缩。

下面是用firebug查看我的博客的头信息，Gzip是开了的。

请求头信息原始头信息

代码如下

复制代码

Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.111cn.net
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0

可以从header信息中找到 Content-Encoding 项是 Gzip 。

解决办法比较简单。

就是用 curl 代替 file_get_contents 去获取，然后在 curl 配置参数中加一条

代码如下	复制代码
curl_setopt($ch, CURLOPT_ENCODING, "gzip");

今天用 file_get_contents 抓图片的时候，开始没发现这个问题，废了老大劲才找出来

1. 使用自带的zlib库

如果服务器已经装了zlib库，用下面的代码可以轻易解决乱码问题。

代码如下	复制代码
$data = file_get_contents("compress.zlib://".$url);

当然也可以使用curl模块来解决人我的问题这里我给各位推荐一文章，如下你感兴趣的文章

时间： 2024-09-20 12:25:35

解决PHP中file_get_contents抓取网页中文乱码问题的相关文章

PHP中使用file_get_contents抓取网页中文乱码问题解决方法_php技巧

本文实例讲述了PHP中使用file_get_contents抓取网页中文乱码问题解决方法.分享给大家供大家参考.具体方法如下: file_get_contents函数本来就是一个非常优秀的php自带本地与远程文件操作函数,它可以让我们不花吹挥之力把远程数据直接下载,但我在使用它读取网页时会碰到有些页面是乱码了,这里就来给各位总结具体的解决办法. 根据网上有朋友介绍说原因可能是服务器开了GZIP压缩,下面是用firebug查看我的网站的头信息,Gzip是开了的,请求头信息原始头信息,代码如下: 复

php中如何抓取网页图片

PHP是一门很容易上手的Web编程语言.PHP学习成本很低,能够迅速开发各种Web应用,是一个很优秀的工具. 尽管很多人觉得PHP缺点很多,quick and dirty 之类的,但是"这个世界上只有两种编程语言,一种是饱受争议的,一种是没人用的",不是吗?只要能够把事情做好的工具,就是好工具.PHP就是这么一个优秀的语言工具. 01.<?php 02.header('content-type:text/html;charset=utf-8');03. set_time_limi

php curl实现多线程抓取网页并同时下载图片

php语言本身不支持多线程,所以开发爬虫程序效率并不高,借助Curl Multi 它可以实现并发多线程的访问多个url地址.用 Curl Multi 多线程下载文件代码: 代码1:将获得的代码直接写入某个文件 <?php $urls =array( 'http://www.111cn.net/', 'http://www.baidu.com/', );// 设置要抓取的页面URL $save_to='test.txt'; // 把抓取的代码写入该文件 $st =

php结合正则批量抓取网页中邮箱地址

php如何抓取网页中邮箱地址,下面我就给大家分享一个用php抓取网页中电子邮箱的实例. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 <?php $url='http://www.3lian.net'; //要采集的网址 $content=file_get_contents($url); //echo $content; function getEmail($str) { //$pattern = "/([a-z0-9]*[-_.]?[a-z0-9]+)*@([a-z

ASP.NET实现抓取网页中的链接

asp.net|链接|网页输入一个地址,就可以把那个网页中的链接提取出来,下面这段代码可以轻松实现,主要的是用到了正则表达式. GetUrl.ASPx代码如下: <%@ Page Language="<a href="http://dev.21tx.com/language/vb/" target="_blank">VB</a>" CodeBehind="GetUrl.aspx.vb&

求教如何通过python抓取网页中表格信息

问题描述求教如何通过python抓取网页中表格信息刚刚开始学习python 不清楚如何通过python抓取网页中的表格信息比如给定一个student.html 里面有学号.姓名.性别等信息怎么样写才能够输入学号读出其他信息? 解决方案用正则表达式,表格数据放在table->tr->td中解决方案二: 输入学号然后服务器在给你其他数据,应该是一个post的过程-你可以抓包看一下整个过程-至于提取特定的信息,你可以先看下整个表格的结构,再有针对性的写个正则表达式来提取出信息- 解决方

技术-用jsoup抓取网页获取网页源码的时候，得到的源码和在网站上面点击右键查看源码不相同，怎么解决

问题描述用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000); 解决方案一部分html是ajax异步加载的,你得用fiddler调试,得到这些请求,照着写解决方案二: C++ 抓取网页的源码获取网页的源码获取网页源码工具类

网络爬虫-用Java来抓取网页实例中HttpClient类的问题

问题描述用Java来抓取网页实例中HttpClient类的问题报这么一大堆错误我也是受不了了...... 主要的问题应该是HttpClient类这个东西,在网上查了这个类是httpclient-2.x.jar包的产物,我导入的是httpclient-4.2.2.jar和httpcore-4.2.2.jar包,而这两个新的工具包并不包含HttpClient类,查阅了Java API帮助文档后,自己并没有找到HttpClient类的替代类,而是一堆接口和抽象类,由于是刚开始写这个,所以有点懵.

linux-求助！！！curl抓取网页出现浏览器不支持嵌入式框架，该如何解决

问题描述求助!!!curl抓取网页出现浏览器不支持嵌入式框架,该如何解决各位大神,我用curl来抓取学校网页时出现这种情况应该如何解决呀! ![http://img.ask.csdn.net/upload/201604/01/1459483867_199566.jpg]() 解决方案 curl抓取网页内容,跟浏览器怎么查看没关系,或者你的请求被服务器检测出不符合

猜你喜欢

使用Table，DIV，XHTML三者制作网页的区别

网页制作Webjx文章简介:最近有客户问到table建站.DIV建站以及XHTML建站的区别,其实这也是国内网站建设逐步走向成熟的标志.网站建设,简单的来说,就是这个人长的怎么样和这个人内心怎么样.一 ...

最简单的ASP实现刷新随机显示两张不同广告图片代码

在做一个广告投放系统时需要随机显示两个不同广告图片,以下通过时间秒数来控制随机出现的功能.本示例仅支持两张不同图片的随机显示效果,如果需要更多的随机图片,可自行简单修改就可以了. 以下是ASP代码: ...

我爱骡：随便说说SEO之外的那点事

天天写SEO,有点烦了,也有点江郎才尽了,今天实在不知道写什么了,就说点SEO的题外话吧,毕竟做网站不仅仅只有SEO,想要成功,我们要做的还有很多. 一.具备良好的心态和素质随便从A5和Chinaz ...

什么是Visual Basic.NET？

visual 什么是Visual Basic.NET? Visual Basic.NET是下一代的Visual Basic.而并不是简单的在Visual Basic 6.0上在添加一些新特性而已 ...

silverlight2 游戏 1 你能坚持多少秒

这是开始学习silverlight的第一个游戏游戏截图: click onto the red block with jump over it: 鼠标移动到红色部分. move the red bl ...

COM组件开发实践（二）

假设需求如下:底层是一个数学运算库DLL,中间是ActiveX控件(它调用底层的数学运算库DLL来完成控制层),界面层在测试时可以是一个exe程序,最后发布到IE浏览器上测试. 数学运算库DLL的开发 ...

QQ输入法手机版如何输入数字

QQ输入法手机版输入数字的方法如下: 将输入法切换到123输入方式,即可直接输入数字. 在拼音和笔画输入方式下,长按数字键,即可快速出现数字和对应的英文候选,可以方便的进行数字选择. 在英文输入方 ...

iPhone6 safari浏览器翻译网页功能与使用方法详解

对于iPhone6手机用户来说,在使用Safari来访问浏览网页的过程中,如果遇到不懂得的词语时需要怎么办呢?对于这个问题苹果官方在Safari浏览器中提供了翻译功能,用户通过该功能即可任意对网页 ...

PowerPoint2010教程之创建视频

①启动PowerPoint2010,打开幻灯片,然后点击文件--保存并发送--创建视频. ②选择计算机和HD显示,然后点击下面的创建视频按钮. ③这时会让你选择存放位置以及保存类型,我们一般将类型 ...

Win7如何设置默认浏览器

一.在浏览器网页中设置: 1.对360浏览器设置: 打开[工具]菜单---打开[选项],打开[选项]对话框, 打开[程序]选项卡,检查默认浏览器选项,勾选[启动时检查是否为默认浏览器]复选框, 单 ...

Photoshop制作闪亮的星光笔刷

最终效果 1.photoshop教程新建一个500 * 500像素的文件,背景填充黑色,然后新建一个图层,选择铅笔工具,大小为2像素,在画布中心画一条短线,如下图. 2.执行:滤镜 > 模糊 ...

浏览器总是提示“安全证书有问题”怎么办

方法一:设置系统时间 1单击开始--控制面板,打开控制面板. 2在控制面板中,找到始终语言和区域,打开它. 3点击设置时间和日期. 4选择internet时间.点击更改设置. 5勾选与intern ...

C++笔试题汇总（45题）

本文转自:<程序员必看c++笔试题汇总>,经过整理正文如下: 本文通过对程序员笔试过程的总结,对程序员c++笔试题进行了汇总.希望能与大家共同分享.下面是一些常见题型: 1.求下面函数的返 ...

新手提问，关于自己写的一个银行类

问题描述自己学过C,现在转学JAVA,对于面向对象和JAVA的编程方式还不是很了解,下面是一个关于银行的小程序,不知道哪里错了,望高人指点感觉是类的实例化和排布有问题用CBC.BankAccount ...

限制和稳定性

问题描述在免费的情况下环信接口稳定性怎么样,有哪些限制解决方案这个可以自己测试下,将demo中的appkey改成你自己的,然后调用rest发送消息,试试

哪位大哥给一段vb.net连接mdb数据库及执行相关查询的代码,本人菜鸟,多谢!

问题描述哪位大哥给一段vb.net连接mdb数据库及执行相关查询的代码,本人菜鸟,多谢! 解决方案解决方案二:mycon=NewOleDbConnection("provider=mic ...

虚拟化平台cloudstack（2）——安装（上）

vmware workstation安装ubuntu server12.04 这个其实没什么说的了,下软件,安装,一顿下一步,OK. 安装完成后,为ubuntu server 12.04安装桌面. 使 ...

WPF listview滚动条移动距离如何获取

问题描述 WPF中listview控件自带了滚动条,请问如何获取滚动条滚动了多少距离,我需要在起始点基础上加上这段移动距离绘制矩形解决方案解决方案二:没做过你看看有没有属性之类的相关信息解决方案三 ...

C语言课程设计》一3.3　删除C程序注释

3.3 删除C程序注释 [例3.3]删除合法C程序的注释部分,命令行格式为:rcomment inputFile outputFile. 题目分析程序遇到注释的开始"/"时,调用 ...

ios端页面都弄好了能实现基本的聊天我是php者我在想我服务端需要做什么呢怎么做？求大神！

问题描述 ios端页面都弄好了能实现基本的聊天我是php者我在想我服务端需要做什么呢怎么做?求大神! 解决方案 php调用rest接口,https://github.com/easemob/e ...

javascript-css3 3D效果的一个问题？

问题描述 css3 3D效果的一个问题? 源代码: <!DOCTYPE html> <html lang="en"> <head> <st ...

Eclipse 下修改调用的JS 页面没有反应

问题描述 Eclipse下工程是导入的,B/S架构的,修改JS的function_dochange()页面没有任何反应...连alert()也没效果..刚接触Eclipse不久,,请各位大侠支招... ...

轻松掌握Java迭代器模式_java

定义:用于顺序访问集合对象的元素,不需要知道集合对象的底层表示. 特点: 1.它支持以不同的方式遍历一个聚合对象. 2.迭代器简化了聚合类. 3.在同一个聚合上可以有多个遍历. ...

MyBatis实践之DAO与Mapper_java

MyBatis简介 MyBatis前身是iBatis,是一个基于Java的数据持久层/对象关系映射(ORM)框架. MyBatis是对JDBC的封装,使开发人员只需关注SQL本身,而不需花费过多的精力 ...

PHP AjaxForm提交图片上传并显示图片源码_php实例

本文实例为大家分享了PHP AjaxForm提交图片上传并显示图片的具体代码,供大家参考,具体内容如下 PHP dofile.php 文件上传源码 <?php $file_upload = &q ...

特殊的HTML字符

提示:您可以先修改部分代码再运行特殊的HTML字符特殊的HTML字符,不断添加中... 下面框中为脚本显示区 ★ ☆ ♀ 提示:您可以先修改部分代码再运行

js中使用&amp;lt;%%&amp;gt;找不到后台变量

问题描述在后台定义了publicstaticstringimgUrl;protectedvoidPage_Load(objectsender,EventArgse){#regionif(!IsPos ...

EasyFlash —— 开源轻量级嵌入式 Flash 存储器库

EasyFlash是一款开源的轻量级嵌入式Flash存储器库,主要为MCU(Micro Control Unit)提供便捷.通用的上层应用接口,使得开发者更加高效实现基于的Flash存储器常见应用开发 ...

《中国人工智能学会通讯》——第6章 6.1 基于深度学习技术的知识图谱构建技术研究

第6章 6.1 基于深度学习技术的知识图谱构建技术研究随着互联网.云计算等技术的发展,信息资源不断丰富,人们的知识需求也有所增长.如何正确理解知识需求,定位和提取相关的知识,并提供有效的知识服务,是 ...

复旦大学学生指学校出售绝密论文

现在网消息论文作者称校方拒绝道歉,复旦称作者签写保密协议程序有问题据媒体报道,复旦大学涉嫌将学生的绝密论文泄密,并在网站上挂卖. 前日上午,论文作者鞠川阳子接受记者采访时表示,复旦大学曾通过邮件的 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.028 s.