如何采集微信公众号历史消息页

采集微信文章和采集网站内容一样,都需要从一个列表页开始。而微信文章的列表页就是公众号里的查看历史消息页。现在网络上的其它微信采集器有的是利用搜狗搜索,采集方式虽然简单多了,但是内容不全。所以我们还是要从最标准最全面的公众号历史消息页来采集。

因为微信的限制,我们能复制到的链接是不完整的,在浏览器中无法打开看到内容。所以我们需要通过上一篇文章介绍的方法,使用anyproxy获取到一个完整的微信公众号历史消息页面的链接地址。

http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5NDAwMTA2MA==&uin=NzM4MTk1ODgx&key=bf9387c4d02682e186a298a18276d8e0555e3ab51d81ca46de339e6082eb767343bef610edd80c9e1bfda66c2b62751511f7cc091a33a029709e94f0d1604e11220fc099a27b2e2d29db75cc0849d4bf&devicetype=android-17&version=26031c34&lang=zh_CN&nettype=WIFI&ascene=3&pass_ticket=Iox5ZdpRhrSxGYEeopVJwTBP7kZj51GYyEL24AT5Zyx%2BBoEMdPDBtOun1F%2F9ENSz&wx_header=1

前一篇文章提到过,biz参数是公众号的ID,uin是用户的ID,目前来看uin是在所有公众号之间唯一的。其它两个重要参数key和pass_ticket是微信客户端补充上的参数。

所以在这个地址失效之前我们是可以通过浏览器查看原文的方法获取到历史消息的文章列表的,如果希望自动化分析内容,也可以制作一个程序,将这个带有尚未失效的key和pass_ticket的链接地址提交进去,再通过例如php程序来获取到文章列表。

最近有朋友跟我说他的采集目标就是单一的一个公众号,我觉得这样就没必要用上一篇文章写的批量采集的方法了。所以我们接下来看看历史消息页里面是怎样获取到文章列表的,通过分析文章列表,就可以得到这个公众号所有的内容链接地址,然后再采集内容就可以了。

在anyproxy的web界面中如果证书配置正确,是可以显示出https的内容的。web界面的地址是http://localhost:8002 其中localhost可以替换成自己的IP地址或域名。从列表中找到getmasssendmsg开头的记录,点击之后右侧就会显示出这条记录的详情:

红框部分就是完整的链接地址,将微信公众平台这个域名拼接在前面之后就可以在浏览器中打开了。

然后将页面向下拉,到html内容的结尾部分,我们可以看到一个json的变量就是历史消息的文章列表:

我们将msgList的变量值拷贝出来,用json格式化工具分析一下,我们就可以看到这个json是以下这个结构:

{ "list": [ { "app_msg_ext_info": { "author": "", "content": "", "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=1&sn=37da0d7208283bf90e9a4a536e0af0ea&chksm=8b882dbbbcffa4ad2f0b8a141cc988d16bace564274018e68e5c53ee6f354f8ad56c9b98bade&scene=4#wechat_redirect", "copyright_stat": 100, "cover": "http://mmbiz.qpic.cn/mmbiz/MofBAcBsJ6X0xGrQ2XK5yQjzwb2eswxkRNBTgLtcqGziaFqwibzvtZAHCDkMeJU1fGZHpjoeibanPJ8rziaq68Akkg/0?wx_fmt=jpeg", "digest": "擦亮双眼,远离谣言。", "fileid": 505283695, "is_multi": 1, "multi_app_msg_item_list": [ { "author": "", "content": "", "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=2&sn=449ef1a874a37fed2429e14f724b56ef&chksm=8b882dbbbcffa4ade48a7932cda4263687e34fca8ea3a5a6233d2589d448b9f6130d3890ce93&scene=4#wechat_redirect", "copyright_stat": 100, "cover": "http://mmbiz.qpic.cn/mmbiz_png/MofBAcBsJ6XyaIn0qEDSSicBUBZbMYHYrhibia89ZnksCsUiaia2TLI1fyqjclibGa1hw3icP6oXeSpaWMjiabaghHl7yw/0?wx_fmt=png", "digest": "12月28日,广州亚运城综合体育馆,内附购票入口~", "fileid": 0, "source_url": "http://wechat.show.wepiao.com/detail/ff764b0731b7465db03b56b998e1f2b8?detailReferrer=1&from=groupmessage&isappinstalled=0", "title": "2017微信公开课Pro版即将召开" }, ...//循环被省略 ], "source_url": "", "subtype": 9, "title": "谣言热榜 | 十一月朋友圈十大谣言" }, "comm_msg_info": { "content": "", "datetime": 1480933315, "fakeid": "3093134871", "id": 1000000010, "status": 2, "type": 49 //类型为49的时候是图文消息 } }, ...//循环被省略 ] }

简要的分析一下这个json(这里只介绍一些重要的信息,其它的被省略):

"list": [ //最外层的键名;只出现一次,所有内容都被它包含。 {//这个大阔号之内是一条多图文或单图文消息,通俗的说就是一天的群发都在这里 "app_msg_ext_info":{//图文消息的扩展信息 "content_url": "图文消息的链接地址", "cover": "封面图片", "digest": "摘要", "is_multi": "是否多图文,值为1和0", "multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息,如果is_multi=0,这里将为空 { "content_url": "图文消息的链接地址", "cover": "封面图片", "digest": ""摘要"", "source_url": "阅读原文的地址", "title": "子内容标题" }, ...//循环被省略 ], "source_url": "阅读原文的地址", "title": "头条标题" }, "comm_msg_info":{//图文消息的基本信息 "datetime": '发布时间,值为unix时间戳', "type": 49 //类型为49的时候是图文消息 } }, ...//循环被省略 ]

在这里还要提到一点就是如果希望获取到时间更久远一些的历史消息内容,就需要在手机或模拟器中将页面向下拉,当拉到最底下的时候,微信将自动读取下一页的内容。下一页的链接地址和历史消息页的链接地址同样是getmasssendmsg开头的地址。但是内容就是只有json了,没有html了。直接解析json就可以了。

这时可以通过上一篇文章介绍的方法,使用anyproxy将msgList变量值正则匹配出来之后,异步提交到服务器,再从服务器上使用php的json_decode解析json成为数组。然后遍历循环数组。我们就可以得到每一篇文章的标题和链接地址。

如果只需要采集单一公众号的内容,完全可以在每天群发之后,通过anyproxy获取到完整的带有key和pass_ticket的链接地址。然后自己制作一个程序,手动将地址提交给自己的程序。使用例如php这样的语言来正则匹配到msgList,然后解析json。这样就不用修改anyproxy的rule,也不需要制作一个采集队列和跳转页面了。

时间: 2024-10-06 07:20:34

如何采集微信公众号历史消息页的相关文章

如何通过新版公众号历史消息实现涨粉?

昨晚终于看到微信公众号历史消息界面改版了.这对于我们运营者来说绝对是一个更好增粉的好消息,那运营者们如何运用这个新改版界面进行更好增粉呢?话不多说,赶紧看一下吧.1. 可以把历史消息直接发送给好友或分享到朋友圈或交流群中:2. 图文中可以插入历史消息的二维码,将原来的公众号名片替换成历史消息界面,识别后即可跳转到历史消息界面.3.  阅读原文中可以直接插入历史消息的链接,或发布在第三方平台中的内容也可以直接插入链接进行分享 1. 可以把微信公众号历史消息直接发送给好友或分享到朋友圈或交流群中:

微信公众号历史发布信息获取

问题描述 微信公众号历史发布信息获取 我有个微信公众号,和一个网站, 我要在我的网站上显示我公众号实时发布的消息.请问如何可以做到? 解决方案 这好办 当你通过微信每发一条消息出去后,都记入自己的数据库 要想查看历史信息,直接从自己的DB中读取 解决方案二: 那么问题来了, 我微信每发一条信息,怎么自动记入到自己的数据库呢? (微信发布不在网站上,不考虑手动记入.)

另类保存微信公众平台历史消息的方法 - 星标消息

前面怎样把微信聊天记录导出备份到电脑[微信公众平台技巧]介绍的通过复制源代码来保存微信公众平台历史消息的方法,有网友反映说不会用批量替换.不会批量换行保存,一头雾水.这里我们就说个简单的方法,直接用星标消息保存,打开微信公众号消息管理,鼠标移动到你要保存的消息,右侧会显示几个菜单,其中有个星星形状的,默认是灰色的,如下图红框所示,点击后变成黄色的小星星,这样微信公众号星标信息就完成了,so easy!哪里要存点哪里! 腾讯客服提供的回答"微信公众号星标信息有什么用?" 他们的解释是:

微信公众号模板消息无限报47001

问题描述 微信公众号模板消息无限报47001 {touser"":""OPENID""template_id"":""ngqIpbwh8bUfcSsECmogfXcV14J0tQlEpBO27izEYtY""url"":""http://weixin.qq.com/download"" data"":{fir

ios-IOS版本微信公众号图文消息或者按钮超级链接不在微信浏览器打开而是跳转到safair

问题描述 IOS版本微信公众号图文消息或者按钮超级链接不在微信浏览器打开而是跳转到safair 如题,IOS版本微信公众号图文消息或者按钮超级链接不在微信浏览器打开而是跳转到safair打开,时好时坏,安卓上正常,这导致无法进行微信支付,求大神指点. 解决方案 http://mp.weixin.qq.com/qa/11/e6f9336fb97afda33bce95999257484b.html

微信公众号图文消息在群发前如何预览?

  微信公众平台中图文消息在群发前如何预览?很多朋友并不是很清楚,其实方法很简单的,下面就为大家介绍一下,来看看吧. 方法/步骤 1.首先,在搜索引擎中搜索"微信公众平台登录",点击右上角带有官网标识的网页,进入微信公众平台登录界面,填写账号密码后,点击登录. 小编提示:搜索"该如何申请微信公众号",有详细申请微信公众号操作步骤. 2.进入微信公众平台后,点击左侧的"素材管理",然后再点击上方的进入图文消息界面. 如图所示. 3.进入图文消息界面

微信公众号模板消息群发php实例代码

微信模板消息只能发给一个人,如果要群发,需要通过php循环,依次发送. 注意,如果模板消息发信息时有时无,不稳定,可能你的access_token令牌更新缓存不及时,过期了.可以根据日志文件查看.建议300秒更新一下.否则会很烦. 模板id需要自己去公众号中设置行业后得到.    代码如下 复制代码 <?php  //使用方法.直接在页面的逻辑中增加fahuo_wechat();即可.函数要事先引用.  functionfahuo_wechat($shopid){       if(_cfg(&qu

微信公众号模板消息群发php代码示例

微信模板消息只能发给一个人,如果要群发,需要通过php循环,依次发送. 注意,如果模板消息发信息时有时无,不稳定,可能你的access_token令牌更新缓存不及时,过期了.可以根据日志文件查看.建议300秒更新一下.否则会很烦. 模板id需要自己去公众号中设置行业后得到. <?php //使用方法.直接在页面的逻辑中增加fahuo_wechat();即可.函数要事先引用. function fahuo_wechat($shopid){ if(_cfg("sendmobile")

PHP写微信公众号文章页采集方法

通过搜狗搜索采集公众号历史消息有几个问题: 1.有验证码: 2.历史消息列表只有最近10条群发内容: 3.文章地址是有有效期的: 4.据说批量采集还要换ip: 通过我前面文章的方法就没有这些问题,虽然采集系统搭建不如传统采集器写个规则去爬就可以了那么简单.但是一次搭建好之后批量采集的效率还是可以的.而且采集的文章地址是永久有效的,并且可以采集到一个公众号所有的历史消息. 我们还是从一个公众号文章的链接地址开始看: 1.从微信右上角菜单复制到的链接地址: http://mp.weixin.qq.c