问题描述
- 爬虫到的职位信息分类问题
-
现在遇到了一个问题需要大家帮忙分析一下。背景介绍:
现在想完成一个利用爬虫获取职位信息,并进行汇总统计查询的应用。
并且爬虫部分没什么大问题了。已经能获取并存入数据库了。
现在的测试都是用智联招聘测试的。问题描述:
如果现在想完成一个分类搜索的功能。
比如点击某个职位,就会搜索这个职位的信息这样的功能。
我该如何获取到一条条数据的职位分类呢?
爬取到的HTML上没有相关的分类信息。
这是爬取的HTML中关于一条职位的信息内容:<table cellpadding="0" cellspacing="0" width="853" class="newlist"> <tbody> <tr> <td class="zwmc" style="width: 250px;"> <input type="checkbox" name="vacancyid" value="CC265613219J90250003000_538_1_03_201__1_" onclick="zlapply.uncheckAll('allvacancyid')"> <div style="width: 224px;*width: 218px; _width:200px; float: left"> <a style="font-weight: bold" par="ssidkey=y&ss=201&ff=03" href="http://jobs.zhaopin.com/265613219250003.htm" target="_blank">半导体FAE测试工程师</a> </div> </td> <td style="width: 60px;" class="fk_lv"><span></span></td> <td class="gsmc"><a href="http://company.zhaopin.com/%E4%B8%AD%E8%8C%82%E7%94%B5%E5%AD%90%28%E4%B8%8A%E6%B5%B7%29%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8_CC265613219.htm" target="_blank">中茂电子(上海)有限公司</a></td> <td class="zwyx">面议</td> <td class="gzdd">上海 - 徐汇区</td> <td class="gxsj"><span>04-18</span><a class="newlist_list_xlbtn" href="javascript:;"></a></td> </tr> <tr style="display: none" class="newlist_tr_detail"> <td width="833px" style="line-height: 0;" colspan="6"> <div class="newlist_detail"> <div class="clearfix"> <ul> <li class="newlist_deatil_two"><span>地点:上海 - 徐汇区</span><span>公司性质:外商独资</span><span>公司规模:20-99人</span><span>学历:本科</span></li> <li class="newlist_deatil_last"> 要求: 1. 电子工程类相关专业本科学历,半导体及集成电路相关专业为佳(大学课程须有数字电路及模拟电路课程)。 2. 掌握C,C++编程语言,能够编写及调试程序;有windows系统相关工具使用经验(word,excel ,ppt),对windows系统能 熟练使用。 3. 有一定的英语阅...</li> </ul> <dl> <dt> <a href="javascript:void(0)" onclick="return zlapply.searchjob.ajaxApplyBrig1('CC265613219J90250003000_538','ssi','_1_03_201__2_')"> <img src="/assets/images/newlist_sqimg_03.jpg"> </a> </dt> <dd> <a href="javascript:zlapply.searchjob.saveOne('CC265613219J90250003000_538')"><img src="/assets/images/newlist_scimg_06.jpg"></a> </dd> </dl> </div> </div> </td> </tr> </tbody> </table>
而且这样关于分类的各种功能都不是很好做,按照工作分类啊,按照城市信息啊之类的。
还望大神们帮帮忙,帮我想出一个比较可行的分类查询的方案。
谢谢了!
解决方案
你这个需要目标网站有提供分类,然后你保存这个分类变量和数据。
解决方案二:
你这样逆向需求,应该是找不到的,因为爬虫只能所见即所得,分类在页面上所有没有,那么你是得不到的。分类和信息之间的对应关系,只有在服务端才有保存。
时间: 2024-11-23 01:14:38