php利用file_get_contents批量采集网站内容

最近发现了一个“小气”的学习站点。网站内容竟然不让复制,这样搞,怎么让我们考试的时候弄小抄,难不成要一个字一个字的去打不成。所幸的是咱是搞技术的,这点问题还是难不倒的,你不让复制刚好,这下我还懒得麻烦呢。直接搞个脚本把这一课的内容全扒取下来看岂不更方便。

说搞就搞,先是看源代码。不过网页禁止了右键,点右键有如下提示:

这个倒不难,查看网页源代码的方法太多了,不知道的可以网上找找吧。查看到了,源代码,发现没找页面中的内容未在源代码中显示。接着拿出httpwatch抓包分析,在其中的另外一个链接里找到页面源代码,不过源代码是加密过的。如下:

不过这个加密有点菜,里面已经明明白的写着是base64加密了。这个解码并不难,linux系统自带的base64工具就能完成:

[root@web20 php]# base64 --helpUsage: base64 [OPTION] [FILE]Base64 encode or decode FILE, or standard input, to standard output.-w, --wrap=COLS       Wrap encoded lines after COLS character (default 76).Use 0 to disable line wrapping.-d, --decode          Decode data.-i, --ignore-garbage  When decoding, ignore non-alphabet characters.--help            Display this help and exit.--version         Output version information and exit.如果[文件]缺省,或者[文件]为 - ,则读取标准输入。The data are encoded as described for the base64 alphabet in RFC 3548.Decoding require compliant input by default, use --ignore-garbage to
attempt to recover from non-alphabet characters (such as newlines) in
the encoded stream.

base64 -d 文件名就行了。不过解码后发现,解出的结果是url化的。得到的结果如下:

%20%20%5B%E8%AF%86%E8%AE%B0%5D%E4%BC%9A%E8%AE%A1%E7%9A%84%E6%B6%B5%E4%B9%89%E6%98%AF%E4%BB%80%E4%B9%88%EF%20%20

看到这个结果是不是又犯难了,其时这个时候应该感到高兴才是。因为结果已经出来一半了。这个得出的结果不正是和在url里进行汉字搜索得到的的URL结果一样吗?

如:我在hao123的百度搜索里找"测试",得到的页面url是

http://www.baidu.com/s?word=%B2%E2%CA%D4&tn=sitehao123

测试两个汉字在url中就变成了%B2%E2%CA%D4 ,知道原理了。解码还不是很简单。php中有个函数urldecode就是干这个用的。下面列出来我全部的url代码:

<?php
for ($i=18291; $i<=18788 ;$i++ ){
$content = file_get_contents("http://www.XXX.com/test.php?wiki_id=".$i);//echo $content;
$spwt1=explode("问题:",$content);
$spwt2=explode('));<',$spwt1[1]);
$spdn=explode("答案:",$spwt2[1]);//echo $spwt2[0];//echo $spdn[1];
preg_match('/base64decode("(.*?)"/',$spwt2[0],$matchesw);
$wen=urldecode(base64_decode($matchesw[1]));
echo $wen;
echo "n";
echo "n";
preg_match('/base64decode("(.*?)"/',$spdn[1],$matchesd);
$da=urldecode(base64_decode($matchesd[1]));
echo $da;}?>

此外为了我出于对那个站点的知识产权的保护,把他的URL给换成了http://www.XXX.com/test.php 。(毕竟人家也是一点点做上去的也不容易。)刚好我服务器上也有php环境,直接运行php test.php。结果非常喜人,一会儿功夫,这一课目的内容全出来了。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索网页
, 文件
, 测试
, 搜索
, 加密
base
file get contents、file put contents、file get contents 空、filegetcontents报错、fileputcontents追加,以便于您获取更多的相关知识。

时间: 2024-08-01 21:04:57

php利用file_get_contents批量采集网站内容的相关文章

防止别人采集网站内容的几种方法

1.搜索自己独有的文章,找到别人采集的联系方式,加他,恐吓他,吓唬他. 2.修改程序,让他采集不完整,故意弄乱序列号.列表也程序化+手工化 3.将自己网站多增加一些内联+外链,用同列网站,交织的让他采集不了 4.增加部分图片,图片带上自己的标识 5.设置修改为一个ip 最多只能读取50页,要他采集不完 6.故意弄几篇非法色情的的,等他采集走了,自己给删除,网监就封了他 7.多弄点对自己网站有用的软文,让别人去采集吧 或弄成自己的镜像网站域名,担心自己的域名被人批量替换掉了 8.dim onlyU

利用python批量检查网站的可用性_python

前言 随着站点的增多,管理复杂性也上来了,俗话说:人多了不好带,我发现站点多了也不好管,因为这些站点里有重要的也有不重要的,重要核心的站点当然就管理的多一些,像一些万年都不出一次问题的,慢慢就被自己都淡忘了,冷不丁那天出个问题,还的手忙脚乱的去紧急处理,所以规范的去管理这些站点是很有必要的,今天我们就做第一步,不管大站小站,先统一把监控做起来,先不说业务情况,最起码那个站点不能访问了,要第一时间报出来,别等着业务方给你反馈,就显得我们不够专业了,那接下来我们看看如果用python实现多网站的可用

网站内容采集之感悟一二三

每个站长都深知网站内容为王,内容至上的道理,可以毫不夸张的说一个网站的内容是网站的根基,是网站的灵魂,内容空洞.一无用处内容的网站在搜索引擎数据库中没有立足的位置.而现实是从一个网站上线开始信息填充到网站中.后期的逐渐壮大网站的羽翼逐渐丰满,网站的信息增加成了每个站长必不可少,又很头疼的事,采集软件的出现可以说解决了很多站长苦恼,很多站长心里都知道原创好,但是现实的局限性往往还是或多或少的使用采集软件进行文章的更新,百度6月风暴的动荡出发点之一也就是打击采集站,这也使得很多使用过采集的站遭到重创

善用采集 网站权重同样可以做的响当当

在搜索引擎优化中,网站内容的质量起到影响权重的决定作用,然而并非所有网站每天都可去更新原创,所以便用诸多SEO工具或采集规则进行了内容的采集.伪原创.但SEOer常说:网站内容更新勿采集.勿伪原创,原创内容才是王道,否则说不好什么时候就会被降权.可果真如此吗?在网站建设中,每天仍旧有数以万亿的网站在靠采集度日,甚至即使做几年采集,权重都可保持蒸蒸日上.由此可见,搜索引擎规则也并非排斥采集,对于这一点很容易找到答案:"在搜索引擎中,随便搜索一个条信息,便有着若干的相同内容被检索出来."那

怎样预防优化网站内容更新后被转载

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 近期笔者负责的以一个公司优化的网站被百度降权,在分析中对软文编辑以及百度不断提出算法技术升级也是感触良多.百度每次提出新的算法对SEO行业中每次都是不小的地震,在每次的地震中受到影响的网站是哪些网站,基本上都是网站内容原创性不够,内容可读性较差,对用户没有实质的帮助,当如看到这个结论后可能不少人都会反驳我,如果你网站内容质量高你的网站为什么被

电商圈小糖:教你如何利用五大技巧打造高质量网站内容

今天和大家谈谈如何打造高质量网站内容?我们都知道,如果要提高一个网站的IP和PV,提高网站来自与搜索引擎的流量,那么就必须拥有高质量的网站内容.只有具有高质量的内容的网站,才能吸引用户,从而吸引搜索引擎.那么我们该如何打造高质量的网站内容,有的朋友说自己写原创,有的朋友说完去网上采集,那么具体该如何操作,通过开米尼的观察和研究,高质量的内容一部分必须原创,一部分可以是来自互联网的高相关的内容,下面我们来具体分析下该如何获得高质量内容. 1.利用行业门户获得高质量内容 比如,我们做网站或者做SEO

网站内容采集到底有没有用

经过百度的几次小更新,收录并不乐观,一直才10多篇的样子,就连google收录都不怎么样,自己对于网站的收录还是很看重的,但是最终的结果却不令我乐观,自己想了想原因,应该就是因为自己的采集所造成的. 采集可以说很多个人站长都在用,因为网站的更新真的是一件很耗时间的事情,而且很多站长都有很多网站,甚至几十个,我就认识一个一个人有几十个网站的站长,真是厉害.2个网站都够我忙的了,他一个人搞几十个.不得不让我佩服.说到采集,我也不是那种直接软件的采集,而是人工去采集,稍微比软件采集好那么一点,其实就是

新手站长如何轻松做好网站内容

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 "内容为王,外链为皇"这句话已经是SEO界老生常谈的一句话了,一般排名靠前的网站都离不开强大的外链支持,同时内容也是优化排名的关键.做外链的方法如今在网上已经有很多,然后对于做网站内容来说,如何做伪原创或原创文章仍然是新手站长最头疼的问题,特别是企业网站和一些小网站,做内容只能靠自己添加,而不能像大网站那样有用户来添加.今

如何合理利用百度资源做好网站推广

中介交易 SEO诊断 淘宝客 云主机 技术大厅 百度旗下的一些产品本身就是一个很好的网站推广工具,如果能充分利用好百度免费提供的资源那网站排名也将不成问题,今天我着重复讲一下如何利用好百度现有的免费资源来推广网站.不过百度旗下一的产品犹如一把双刃剑 推广网站要把握一个度,过犹不及就是这个道理,如果过火对利用将会对网站带来灾难.如果想要更好的利用百度来推广,前提你需要一个等级高的百度账号,实践证明,百度账号等级越高成功的机率也越高. 百科:新站上线后应当有一个与众不同的名字,尽管前期自己的品牌知名