爬虫到的职位信息分类问题

问题描述

爬虫到的职位信息分类问题

现在遇到了一个问题需要大家帮忙分析一下。

背景介绍:

现在想完成一个利用爬虫获取职位信息,并进行汇总统计查询的应用。
并且爬虫部分没什么大问题了。已经能获取并存入数据库了。
现在的测试都是用智联招聘测试的。

问题描述:

如果现在想完成一个分类搜索的功能。
比如点击某个职位,就会搜索这个职位的信息这样的功能。
我该如何获取到一条条数据的职位分类呢?
爬取到的HTML上没有相关的分类信息。
这是爬取的HTML中关于一条职位的信息内容:


<table cellpadding="0" cellspacing="0" width="853" class="newlist">
           <tbody>
            <tr>
             <td class="zwmc" style="width: 250px;"> <input type="checkbox" name="vacancyid" value="CC265613219J90250003000_538_1_03_201__1_" onclick="zlapply.uncheckAll('allvacancyid')">
              <div style="width: 224px;*width: 218px; _width:200px; float: left">
               <a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03" href="http://jobs.zhaopin.com/265613219250003.htm" target="_blank">半导体FAE测试工程师</a>
              </div> </td>
             <td style="width: 60px;" class="fk_lv"><span></span></td>
             <td class="gsmc"><a href="http://company.zhaopin.com/%E4%B8%AD%E8%8C%82%E7%94%B5%E5%AD%90%28%E4%B8%8A%E6%B5%B7%29%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8_CC265613219.htm" target="_blank">中茂电子(上海)有限公司</a></td>
             <td class="zwyx">面议</td>
             <td class="gzdd">上海 - 徐汇区</td>
             <td class="gxsj"><span>04-18</span><a class="newlist_list_xlbtn" href="javascript:;"></a></td>
            </tr>
            <tr style="display: none" class="newlist_tr_detail">
             <td width="833px" style="line-height: 0;" colspan="6">
              <div class="newlist_detail">
               <div class="clearfix">
                <ul>
                 <li class="newlist_deatil_two"><span>地点:上海 - 徐汇区</span><span>公司性质:外商独资</span><span>公司规模:20-99人</span><span>学历:本科</span></li>
                 <li class="newlist_deatil_last"> 要求: 1. 电子工程类相关专业本科学历,半导体及集成电路相关专业为佳(大学课程须有数字电路及模拟电路课程)。 2. 掌握C,C++编程语言,能够编写及调试程序;有windows系统相关工具使用经验(word,excel ,ppt),对windows系统能 熟练使用。 3. 有一定的英语阅...</li>
                </ul>
                <dl>
                 <dt>
                  <a href="javascript:void(0)" onclick="return zlapply.searchjob.ajaxApplyBrig1('CC265613219J90250003000_538','ssi','_1_03_201__2_')"> <img src="/assets/images/newlist_sqimg_03.jpg"> </a>
                 </dt>
                 <dd>
                  <a href="javascript:zlapply.searchjob.saveOne('CC265613219J90250003000_538')"><img src="/assets/images/newlist_scimg_06.jpg"></a>
                 </dd>
                </dl>
               </div>
              </div> </td>
            </tr>
           </tbody>
          </table> 

而且这样关于分类的各种功能都不是很好做,按照工作分类啊,按照城市信息啊之类的。

还望大神们帮帮忙,帮我想出一个比较可行的分类查询的方案。

谢谢了!

解决方案

你这个需要目标网站有提供分类,然后你保存这个分类变量和数据。

解决方案二:

你这样逆向需求,应该是找不到的,因为爬虫只能所见即所得,分类在页面上所有没有,那么你是得不到的。分类和信息之间的对应关系,只有在服务端才有保存。

时间: 2024-11-23 01:14:38

爬虫到的职位信息分类问题的相关文章

java技术-td中我想让div和span在一行显示,怎么解决?

问题描述 td中我想让div和span在一行显示,怎么解决? 我想让div和span在一行显示,怎么解决 代码如下: <table border='1'> <tr> <td>a</td> <td ><div>div</div><span>span</span></td> </tr> <tr> <td>b</td> <td>c&l

【拉勾网职位需求信息爬虫】技能长尾关键词抓取——看看你是否满足企业技能需求(转)

写在前面 不同的语言,有它们各自擅长的应用场景,选择一门适合自己的语言需要勇气与毅力. 而当你下定决心要在甄选的语言上一条道走到黑的时候,孰不知,选择才刚刚开始. 一门编程语言往往有许多分支,每一个分支都需要掌握不同的技能,我们时常会感到困惑:怎么才能较为准确的分配技能点? 需求决定选择,从招聘方的角度来观察,看看我们未来的金主需要现在的你我掌握什么技能,或许能够从繁多的技术分支中受到启发: 这次练习的题目是通过Python抓取拉勾网的招聘详情页,并筛选其中的技能关键词,存储到excel中. 一

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/

[Python爬虫] scrapy爬虫系列 &amp;lt;一&amp;gt;.安装及入门介绍

        前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更为广泛使用的Python爬虫框架是--Scrapy爬虫.这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章.         官方 Scrapy  :http://scrapy.org/         官方英文文档:http://doc.scrapy.or

php爬虫:知乎用户数据爬取和分析

背景说明:小拽利用php的curl写的爬虫,实验性的爬取了知乎5w用户的基本信息:同时,针对爬取的数据,进行了简单的分析呈现.demo 地址 php的spider代码和用户dashboard的展现代码,整理后上传github,在个人博客和公众号更新代码库,程序仅供娱乐和学习交流:如果有侵犯知乎相关权益,请尽快联系本人删除. 无图无真相 移动端分析数据截图 pc端分析数据截图 整个爬取,分析,展现过程大概分如下几步,小拽将分别介绍 curl爬取知乎网页数据 正则分析知乎网页数据 数据数据入库和程序

网络爬虫--之爬起校招信息代码

记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏.   于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息.   重复的事情做久了,就有了自动化的想法.   于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如"应届"."校招"."Google")先对校招信息进行过滤,然后存储到本机

[jjzhu学python]之使用python抓取拉勾网职位信息并做简单统计分析

一直对python感兴趣,最近想玩玩爬虫,抓拉钩互联网职位招聘信息,然后做点统计什么的,废话不多说,开打开打. 作为程序猿,对什么boss直聘,拉勾网什么的招聘网站应该不陌生.....http://www.lagou.com/ 运行环境: 1.win7 32bit 2.pycharm 4.0.4 3.python 3.4 4.google chrome 需要的插件 1.beautifulsoup(相关安装和使用可以到 官网(点击打开)查阅) 2.pymsql(安装可以到github下载安装htt

Python爬虫爬取知乎小结

最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. Python有很多开源工具包供我们使用,我这里使用了requests.BeautifulSoup4.json等包.requests模块帮助我们实现http请求,bs4模块和json模块帮

简易Java爬虫制作

一.文章来由 本来最近任务挺多,但是今天想放松一下,正巧Bill喜欢玩英语配音,而配音都是在配音软件的云上,我想把那些都拿到,于是就写一了一个爬虫,接着就有了这篇爬虫教程~~ 二.爬虫!!爬虫!! 首先要搞清什么叫爬虫~~ 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 当然Java本身应该不算是脚本语言(一个脚本通常是解释运行而非编译,J