python3简单实现微信爬虫_python

使用ghost.py 通过搜搜 的微信搜索来爬取微信公共账号的信息

# -*- coding: utf-8 -*-
import sys
reload(sys)
import datetime
import time
sys.setdefaultencoding("utf-8")

from ghost import Ghost
ghost = Ghost(wait_timeout=20)

url="http://weixin.sogou.com/gzh?openid=oIWsFt8JDv7xubXz5E3U41T0eFbk"
page,resources = ghost.open(url)
result, resources = ghost.wait_for_selector("#wxmore a")

from bs4 import BeautifulSoup
c=0
while True:
  if c>=30:
    break

  soup = BeautifulSoup(ghost.content)

  for wx in soup.find_all("h4"):
    print wx

  page, resources = ghost.evaluate(
    """
    var div1 = document.getElementById("wxbox");
    div1.innerHTML = '';
    """)
  ghost.click("#wxmore a")
  result, resources = ghost.wait_for_selector(".wx-rb3")

  c=c+1
  pass

以上所述就是本文的全部内容了,希望对大家学习Python能够有所帮助

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索python
, 网络爬虫
, python爬虫教程
python爬虫框架
python实现简单爬虫、python 简单爬虫、python简单的爬虫程序、python实现网络爬虫、python简单爬虫代码,以便于您获取更多的相关知识。

时间: 2024-09-22 18:35:21

python3简单实现微信爬虫_python的相关文章

超简单的java爬虫

最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码... 好吧,满足这个要求的爬虫应该是最基本的爬虫了.当然这也是做复杂的爬虫的基础. 使用的是httpclient4的相关API.不要跟我讲网上好多都是httpclient3的代码该怎么兼容的问题,它们差不太多,但是我们应该选择新的能用的接口! 当然,还是有很多细节可以去关注一下,比如编码问题(我一般都是强制用UTF-8的) 放码过来:   import java.i

Android编写简单的网络爬虫

一.网络爬虫的基本知识 网络爬虫通过遍历互联网络,把网络中的相关网页全部抓取过来,这体现了爬的概念.爬虫如何遍历网络呢,互联网可以看做是一张大图,每个页面看做其中的一个节点,页面的连接看做是有向边.图的遍历方式分为宽度遍历和深度遍历,但是深度遍历可能会在深度上过深的遍历或者陷入黑洞.所以,大多数爬虫不采用这种形式.另一方面,爬虫在按照宽度优先遍历的方式时候,会给待遍历的网页赋予一定优先级,这种叫做带偏好的遍历. 实际的爬虫是从一系列的种子链接开始.种子链接是起始节点,种子页面的超链接指向的页面是

简单的抓取淘宝图片的Python爬虫_python

写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片. 复制代码 代码如下: # -*- coding: cp936 -*- import urllib2 import urllib mmurl="http://mm.taobao.com/json/request_top_list.htm?type

Python3 入门教程 简单但比较不错_python

本文适合有Java编程经验的程序员快速熟悉Python 本文程序在windows xp+python3.1a1 测试通过. 本文提到的idle指python shell,即安装python后你在菜单看到的IDLE(python gui) 在idle里ctrl+n可以打开一个新窗口,输入源码后ctrl+s可以保存,f5运行程序. 凡打开新窗口即指ctrl+n的操作. 1 你好 复制代码 代码如下: #打开新窗口,输入: #! /usr/bin/python # -*- coding: utf8 -

Python编写百度贴吧的简单爬虫_python

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名 代码: # -*- coding: utf-8 -*- #---------------------------- # 程序:百度贴吧的小爬虫 # 日期:2015/03/28 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数 # 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名 #-----

简单的Python抓taobao图片爬虫_python

写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片. 复制代码 代码如下: # -*- coding: cp936 -*- import urllib2 import urllib mmurl="http://mm.taobao.com/json/request_top_list.htm?type

python3+urllib打造新浪微博爬虫,真的很easy

前言(一些废话) 最近试了一下网页版的(weibo.com)和移动端的(m.weibo.cn),网页版的解析一大堆网页实在是太麻烦,移动端只需要请求,直接返回json数据,这里对这两种方式做了下优缺点对比 网页版 优点 用户信息获取的很全面,出生日期.性取向.感情状况是移动端不能获取的 微博.粉丝可以抓取的比较全面 可以学习xpath.bs4.正则的网页解析 缺点 要花钱哦,因为多账号登录需要验证码,验证码识别的话,用云打码(没用过)是收费的 解析页面恶心的一批,要写正则.要去看网页...比较麻

Python 爬虫学习笔记之单线程爬虫_python

介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样 这个时候进行翻页,观看网址的变化,首先,第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.ma

Python 爬虫学习笔记之多线程爬虫_python

XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我个人认为学习一下正则表达式是大有益处的,之所以换成 XPath ,我个人认为是因为它定位更准确,使用更加便捷.可能有的人对 XPath 和正则表达式的区别不太清楚,举个例子来说吧,用正则表达式提取我们的内容,就好比说一个人想去天安门,地址的描述是左边有一个圆形建筑,右边是一个方形建筑,你去找吧,而使