网络爬虫--之爬起校招信息代码

记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏。 
  
于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。 
  
重复的事情做久了,就有了自动化的想法。 
  
于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招”、“Google”)先对校招信息进行过滤,然后存储到本机redis中。本机若搭有lamp环境,那么直接从redis读取信息到web页面上即可。 
  
这个小爬虫的目的,就是把各路校招信息聚合在一起并且过滤出自己感兴趣的校招信息如Google的校招、百度的校招等等。 
  
此外,这个小玩意还帮了我大忙,13届阿里补招的时候让我在单位时间内看到了补招信息,火速投出简历并最终抓住了机会。 
  
据我所知,后来投递的应届生简历都已经晚了。 
  
天下武功,唯快不破。 
  
这个小爬虫在我的机器上跑了快一年了,虽然对它挺有感情,但如今对我来说也没有什么用了。新的一轮校招快到了,我决定把它分享出来,有需要的童鞋直接拿去就可以用,有兴趣的同学也可以很容易地扩展它,满足自己的个性化需求。 
  
初步介绍可以见博文

抓取北邮人论坛和水木社区校招信息的爬虫程序, 直接运行main.py即可在本机(http://127.0.0.1:8888)访问,非常简洁,可以扩展。

此外,已经增加手机短信通知功能,移动、联通、电信都可以用。

Talk is cheap, show you the code:https://github.com/lizherui/spider_python.

Enjoy it.

  
Talk is cheap, show you the code. 
  

代码托管在github:https://github.com/lizherui/spider_python 

下载地址:http://download.csdn.net/detail/gshengod/5999879

  
感谢@mmoonzhu的patch。 
  
PS:已增加手机短信通知功能,利用了139邮箱短信通知的原理,移动联通电信都可以用。 
  
Enjoy it.  

时间: 2024-09-11 06:55:35

网络爬虫--之爬起校招信息代码的相关文章

Python网络爬虫反爬破解策略实战

​​作者:韦玮 转载请注明出处 我们经常会写一 些网络爬虫,想必大家都会有一个感受,写爬虫虽然不难,但是反爬处理却很难,因为现在大部分的网站都有自己的反爬机制,所以我们要爬取这些数据会比较难.但是,每一种反爬机制其实我们都会有相应的解决方案,作为爬虫方的我们,重点需要处理这些反爬机制,所以,今天我们在这里就为大家分析常见的反爬策略以及破解的手段. 1. 知己知彼-常见的反爬策略有哪些? 首先,既然要破解这些常见的反爬策略,就首先需要知道常见的反爬策略有哪些,所谓知己知彼,百战百胜. 常见的反爬策

网络爬虫-wget爬取网页失败问题

问题描述 wget爬取网页失败问题 用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_en

C#网络爬虫代码分享 C#简单的爬取工具_C#教程

公司编辑妹子需要爬取网页内容,叫我帮忙做了一简单的爬取工具 这是爬取网页内容,像是这对大家来说都是不难得,但是在这里有一些小改动,代码献上,大家参考 private string GetHttpWebRequest(string url) { HttpWebResponse result; string strHTML = string.Empty; try { Uri uri = new Uri(url); WebRequest webReq = WebRequest.Create(uri);

用Python语言实现网络爬虫

1.什么是网络爬虫 网络爬虫是现代搜索引擎技术的一种非常核心.基础的技术,网络就好比是一张蜘蛛网,网络爬虫就像是一只蜘蛛,在网络间'爬来爬去',搜索有用的信息. 2.抓取代理服务器的网络爬虫 本文介绍用python实现抓取代理服务器的网络爬虫,主要步骤是: 1)利用urllib2获取提供代理服务的网页信息(本文以http://www.cnproxy.com/proxy1.html为例) 2)利用正则表达式获取代理ip信息 3)利用多线程技术验证代理ip的有效性 1).抓取代理ip列表 def g

网络爬虫与Web安全

网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域.搜索引擎使用网络爬虫抓取Web网页.文档甚至图片.音频.视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询.随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战.不断优化的网络爬虫技术正在有效地应对这种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑

精通Python网络爬虫:核心技术、框架与项目实战.1.4 网络爬虫的类型

1.4 网络爬虫的类型 现在我们已经基本了解了网络爬虫的组成,那么网络爬虫具体有哪些类型呢? 网络爬虫按照实现的技术和结构可以分为通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫等类型.在实际的网络爬虫中,通常是这几类爬虫的组合体. 首先我们为大家介绍通用网络爬虫(General Purpose Web Crawler).通用网络爬虫又叫作全网爬虫,顾名思义,通用网络爬虫爬取的目标资源在全互联网中.通用网络爬虫所爬取的目标数据是巨大的,并且爬行的范围也是非常大的,正是由于其爬取的数据是海

网络爬虫-怎么使用pycharm来抓取旅游网站的信息

问题描述 怎么使用pycharm来抓取旅游网站的信息 通过网络爬虫爬取来自不同旅游网站的网页,同时需将网页内容进行分布式存储,然后对网页内容进行抽取和分析,提取其中的关键数据,包括但不限于线路编号.产品名称.出发城市.目的地城市.价格.出发日期.交通方式.旅游景点.酒店.行程安排等信息.用户输入出发城市.出发日期.旅游目的地等条件后,系统能按照一定的逻辑进行线路的展示和比价,方便用户做出决策. 解决方案 Java 用jsoup 通过标签获取. 解决方案二: 用python的scrapy爬虫框架来

需要写一个基于Lucene的网络爬虫程序,求代码进行参考

问题描述 哪位大神给我一份代码参考一下,基于Lucene的网络爬虫,发我邮箱吧,谢谢啦1754259677@qq.com

HtmlUnit、httpclient、jsoup爬取网页信息并解析

1.爬取页面效果图 点击"百度一下"按钮前页面 点击"百度一下"按钮后页面 天涯社区登录页面 登录进去之后个人主页 二.具体实现代码 HtmlUnit(底层也是采用httpclient)和jsoup  API package com.yuanhai.test; import java.io.IOException; import java.net.MalformedURLException; import org.jsoup.Connection; import o