PHP写微信公众号文章页采集方法

通过搜狗搜索采集公众号历史消息有几个问题:

1、有验证码;

2、历史消息列表只有最近10条群发内容;

3、文章地址是有有效期的;

4、据说批量采集还要换ip;

通过我前面文章的方法就没有这些问题,虽然采集系统搭建不如传统采集器写个规则去爬就可以了那么简单。但是一次搭建好之后批量采集的效率还是可以的。而且采集的文章地址是永久有效的,并且可以采集到一个公众号所有的历史消息。
我们还是从一个公众号文章的链接地址开始看:

1、从微信右上角菜单复制到的链接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、历史消息列表中获取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真实地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上这3个地址是同一篇文章的地址,在不同位置获取到就得到了完全不同的3个结果。

和历史消息页一样,微信有一套自动补充参数的机制。第一个地址是复制链接得到的,看起来是一个伪装的编码。其实没什么用我们不做考虑了。第二个地址是通过前面文章介绍的方法,从历史消息的json文章列表中获得到的链接地址,我们就是可以将这个地址保存到数据库中。之后就可以通过这个地址从服务器获取到文章内容。而第三个链接补充了参数之后,目的是为了让文章页面中的阅读量js可以获取到阅读量点赞量的json结果而加上的参数。我们前面文章的方法中因为文章页面被客户端打开显示了出来,因为有了这些参数,文章页面中的js就去自动获取阅读量了,所以我们才能通过代理服务获取到这篇文章的阅读量。

这篇文章的内容就是以通过本专栏前面文章介绍的方法已经获取到了大量微信文章的基础上,详细研究如何获取到文章内容和其它一些有用的信息的方法。

(我的数据库中保存的文章列表,一部分字段)

1、获取文章源代码:

通过php的函数file_get_content()就可以将文章源代码读取到变量中。微信文章的源代码因为可以从浏览器中打开所以我就不在这里粘贴了,以免浪费页面空间。

<? //$content_url 变量的值为文章地址 $html = file_get_contents($content_url); ?>

2、源代码中有用的信息:

1)原文内容:

原文内容是包含在一个<div id='js_content'></div>标签中的,通过php代码获取:

<? preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER); $content = "<div id='js_content'>".$content[1][0]; ?>

正则的开头识别<div id='js_content'>,结尾识别<script/iUs,匹配到之后前面再补充一个<div id='js_content'>;我的正则匹配水平有限,只能写成这样的了。希望有高人能指点更好的正则匹配方法。

另外注意:这个匹配规则会可能在一段时间之后有变化。这篇文章会尽量保持更新。如果你根据我的文章制作了采集系统之后,当某一天失效了,别忘了回来再看看文章是否有更新。

2)内容处理:

通过上面的方法我们获得了文章内容的html,但是你将文章内容显示出来之后就会发现,图片和视频不能正常显示。因为这个html还需要一些加工:

首先是图片,微信文章中的<img>标签中的src属性全部都用了data-src属性代替。只有在显示的时候才会被替换过来。所以我们也有两个方案,将源代码直接替换过来,或者用js在显示时候再替换。下面我先介绍直接替换html的方法:

<? //$content变量的值是前面获取到的文章内容html $content = str_replace("data-src","src",$content); ?>

然后是视频,视频的显示不正常,经过长期测试后发现只要替换一个页面地址就能解决,过程就不说了,直接说结果:

<? //$content变量的值是前面获取到的文章内容html $content = str_replace("preview.html","player.html",$content); ?>

通过这两个替换之后,文章内容html中的图片和视频就都正常了。

3) 公众号相关信息:

通过本专栏之前的文章,介绍了我们使用微信客户端,任意打开一个公众号的历史消息页之后。系统从数据库中识别biz的值,发现数据库中没有记录,就会插入一条新的纪录。之后的采集队列就会定期根据这个biz来获取这个公众号的历史消息列表。

但是我们只获得了这个公众号的biz,公众号的名称,头像这两个重要信息还是没有获取到。主要原因是历史消息页面中没有这两个信息。但是我们可以从文章页面中获取到。

在微信文章页面html的底部,有一些js的变量赋值的代码,通过正则匹配之后我们就可以获得这两个公众号的信息:

<? //$html变量的值是前面获取到的文章全部html preg_match_all('/var nickname = \"(.*?)\";/si',$html,$m); $nickname = $m[1][0];//公众号昵称 preg_match_all('/var round_head_img = \"(.*?)\";/si',$html,$m); $head_img = $m[1][0];//公众号头像 ?>

通过这两个正则匹配,我们就能获取到公众号的头像和昵称,然后根据文章地址中的biz,可以保存到对应的微信号数据表中。

3、文章的保存和处理

前面的代码已经将文章内容获取到变量中了。如何保存其实每个人也许都有自己的想法。我这里介绍一下我的保存内容的方法:

将文章内容的html以数据库id为文件名保存成html文件,以biz字段为目录。

<? $dir = "./".$biz."/"; $filename = $dir.$id.".html"; if(!is_dir($dir)) { mkdir($cache_dir); chmod($cache_dir,0777); } $file = fopen($filename, "w"); fwrite($file, $content); fclose($file); ?>

以上代码是一个标准的php建立文件夹保存文件的代码,大家可以根据自己的实际情况安排保存方法。

在这之后我们就可以在自己的服务器上得到一个html文件,内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你也许会发现图片防盗链了!无法正常显示!包括数据库中保存的文章封面图,公众号的头像都是防盗链的。

别急,这个问题很好解决,只需要将图片也保存到自己的服务器,无非是将来会占用自己的服务器空间和带宽。

图片防盗链的原理是当图片在网页中显示的时候,图片服务器会检测到引用这张图片的服务器域名,当发现服务器域名不包含http://qq.com或http://qpic.cn的时候就会被替换成防盗链图片。

但是如果检测不到引用页面的域名就会正常显示,所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来,然后根据自己的想法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方法,我目前使用了腾讯云的“万象优图”,通过它们提供的api将图片保存到云空间,这样的好处是读取图片时直接在图片的链接地址加上希望得到的图片尺寸大小参数,就可以直接得到一张缩略图。比存在自己的服务器方便得多。阿里云也应该有同样的产品,好像名叫对象存储。

另外,我采集公众号内容的目的是制作成一个新闻app,在app中将html代码显示出来之后,因为app同样没有域名,防盗链服务器也同样不会认为图片被盗链了。这样就可以直接显示图片出来。

以上就是我总结的公众号文章内容的采集与存储方法,希望能够帮到你。

时间: 2024-10-24 13:13:42

PHP写微信公众号文章页采集方法的相关文章

【技巧】如何使用客户端发布BLOG+如何快速发布微信公众号文章

[技巧]如何使用客户端发布BLOG+如何快速发布微信公众号文章   1  BLOG文档结构图     2  前言部分   2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① 如何使用客户端发布BLOG(重点) ② 如何快速发布微信公众号文章 ③ 如何批量上传图片到blog ④ 如何批量上传图片到微信公众号上     Tips: ① 本文在itpub(http://blog.itpub.net/26736162)

关于抓取微信公众号文章

问题描述 关于抓取微信公众号文章 想直接抓取微信公众号文章,不是搜狗里面的,各位大神有什么思想建议

微信公众号文章如何抓取

问题描述 微信公众号文章如何抓取 如题,请问,现在有什么好的方式抓取微信公众号文章的方式吗?我现在用的是搜狗的入口,但是这个入口每几个月就会变换规则,接口整体大改,不稳定,有没有其他什么好的方法? 解决方案 搜狗微信公众号文章抓取 解决方案二: 没有什么好办法,只能通过搜狗,而且如果信息多还无法捉取全部的,好像只能显示前40条.. 解决方案三: 微信文章内容的话可以使用辅助工具, 把微信文章链接输入,然后把整篇内容抓取出来,一般像微小宝之类的工具都有这个功能 解决方案四: 是指这个吗http:/

微信公众号文章也可以添加音乐 不用因无法添加背景音乐代码而烦恼了

之前我们有聊过用代码添加图文消息背景音乐,微信可能考虑安全问题一段时间后代码不能用了,现在好了,微信公众号文章也可以添加音乐了,直接在微信公众平台后台像添加图片一样直接就可以插入音乐,未经认证的公众号也可以使用这一功能. 微信公众号文章添加音乐具体的操作流程是: 运营者可以在编辑图文消息时,在正文中插入音乐;选取音乐时,支持根据歌名.作者进行搜索,并且可以试听音乐;完成后即可. 也许文字不能表达的,音乐,可以表达. 一首歌,也许是你的信仰,你的态度,你的心情,你的记忆-- 为了让这种表达和分享更

想让微信公众号文章上“朋友圈热文”?看看这个

本周三(15日)开始,微信悄悄上线了"朋友圈热文"的新功能:当你在微信消息和通讯录页面进入搜索框后,除了出现"朋友圈"."文章"."公众号"三个选项外,还多了一个朋友圈热文. 说是"悄悄",不过是微信并未发布公告说明,但运营圈从来不缺善于发现的双眼,互联网.科技类的公号早已发布了各种版本的分析.评论和推测.此前,新榜也发布了<"朋友圈热文":微信公众号的又一次"去朋友圈化

微信公众号文章添加音乐的教程

1.我们进入到微信公公众账号之后我们再点击如图所示[新建图文消息]效果如下所示 文章添加音乐的教程-公众号文章添加音乐"> 2.然后进入到文章编辑界面我们点击编辑器中的插入音乐图标,如图所示[音乐图标] 3.此时再从新页面中的[ 搜索框输入想要的歌曲名 ]进行查找 4.找到之后我们可以点击[试听按钮],试听OK之后,即可点击[ 确定 ]了 5.接下来返回正文页面之后,我们就可以看到音乐插件已经添加成功了 好了这样音乐就插入到文章了,我们现在只要发布了,发布成功之后我们打开音乐文章就可以看到

微信公众号常用加粉方法全解析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 就像很多人调侃自己所有的梦想都建立在"等我有钱了"这个基础上,对于微信公众号的运营者来说,这依然是一个魔咒,我们所有的微信营销计划似乎也得加上一个前提--等我有粉丝后. 的确,粉丝(微信公众号里面叫做用户,我们这里统一称为粉丝,以便理解)如此重要,它是我们做好微信营销的一个必要前提.不过,在我看来,每一个运营主体粉丝都应该是有一个极限,超过这个极限,你增加不了,也不必再增加粉丝.所以你看,炒得很火的黄太吉,它们的新浪微博粉丝也才刚刚突破1

曲线对抗苹果?微信公众号文章可添加小程序进行打赏

微信仍在给小程序加码,不断放出各种新能力.继4月21日调整公众号关联小程序规则后,现在又继续进行了微调,允许公众号群发文章直接添加小程序,点击后直接打开,支持自定义小程序标题和图片. 具体功能为: 1.公众号可将已关联的小程序添加到群发文章的正文中,点击后打开小程序. 2.可自定义小程序卡片的标题和图片,指定小程序打开的页面. 3.支持所有公众号群发文章的正文里添加小程序. 此外,之前受苹果封堵的 iOS 版微信赞赏功能,随着小程序的开放又回来了.通过添加拥有「打赏」功能的小程序,读者可以继续支

小麦苗微信公众号文章链接地址

&&&& >>&   && &&                                                                                                                                                                                                 >