2 u011728688 u011728688 于 2016.05.03 13:54 提问

爬虫到的职位信息分类问题 1C

现在遇到了一个问题需要大家帮忙分析一下。

背景介绍:

现在想完成一个利用爬虫获取职位信息,并进行汇总统计查询的应用。
并且爬虫部分没什么大问题了。已经能获取并存入数据库了。
现在的测试都是用智联招聘测试的。

问题描述:

如果现在想完成一个分类搜索的功能。
比如点击某个职位,就会搜索这个职位的信息这样的功能。
我该如何获取到一条条数据的职位分类呢?
爬取到的HTML上没有相关的分类信息。
这是爬取的HTML中关于一条职位的信息内容:


<table cellpadding="0" cellspacing="0" width="853" class="newlist"> 
           <tbody>
            <tr> 
             <td class="zwmc" style="width: 250px;"> <input type="checkbox" name="vacancyid" value="CC265613219J90250003000_538_1_03_201__1_" onclick="zlapply.uncheckAll('allvacancyid')"> 
              <div style="width: 224px;*width: 218px; _width:200px; float: left"> 
               <a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03" href="http://jobs.zhaopin.com/265613219250003.htm" target="_blank">半导体FAE测试工程师</a> 
              </div> </td> 
             <td style="width: 60px;" class="fk_lv"><span></span></td> 
             <td class="gsmc"><a href="http://company.zhaopin.com/%E4%B8%AD%E8%8C%82%E7%94%B5%E5%AD%90%28%E4%B8%8A%E6%B5%B7%29%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8_CC265613219.htm" target="_blank">中茂电子(上海)有限公司</a></td> 
             <td class="zwyx">面议</td> 
             <td class="gzdd">上海 - 徐汇区</td> 
             <td class="gxsj"><span>04-18</span><a class="newlist_list_xlbtn" href="javascript:;"></a></td> 
            </tr> 
            <tr style="display: none" class="newlist_tr_detail"> 
             <td width="833px" style="line-height: 0;" colspan="6"> 
              <div class="newlist_detail"> 
               <div class="clearfix"> 
                <ul> 
                 <li class="newlist_deatil_two"><span>地点:上海 - 徐汇区</span><span>公司性质:外商独资</span><span>公司规模:20-99人</span><span>学历:本科</span></li>
                 <li class="newlist_deatil_last"> 要求: 1. 电子工程类相关专业本科学历,半导体及集成电路相关专业为佳(大学课程须有数字电路及模拟电路课程)。 2. 掌握C,C++编程语言,能够编写及调试程序;有windows系统相关工具使用经验(word,excel ,ppt),对windows系统能 熟练使用。 3. 有一定的英语阅...</li> 
                </ul> 
                <dl> 
                 <dt> 
                  <a href="javascript:void(0)" onclick="return zlapply.searchjob.ajaxApplyBrig1('CC265613219J90250003000_538','ssi','_1_03_201__2_')"> <img src="/assets/images/newlist_sqimg_03.jpg"> </a> 
                 </dt> 
                 <dd>
                  <a href="javascript:zlapply.searchjob.saveOne('CC265613219J90250003000_538')"><img src="/assets/images/newlist_scimg_06.jpg"></a>
                 </dd> 
                </dl> 
               </div> 
              </div> </td>
            </tr> 
           </tbody>
          </table> 

而且这样关于分类的各种功能都不是很好做,按照工作分类啊,按照城市信息啊之类的。

还望大神们帮帮忙,帮我想出一个比较可行的分类查询的方案。

谢谢了!

2个回答

oyljerry
oyljerry   Ds   Rxr 2016.05.03 16:34

你这个需要目标网站有提供分类,然后你保存这个分类变量和数据。

u011728688
u011728688 恩,这个数据是从智联招聘上爬取的,网站上有选分类的地方。
一年多之前 回复
sxwws
sxwws   2016.05.04 15:56

你这样逆向需求,应该是找不到的,因为爬虫只能所见即所得,分类在页面上所有没有,那么你是得不到的。分类和信息之间的对应关系,只有在服务端才有保存。

u011728688
u011728688 = =这是我的毕设啊。那岂不是要完蛋。。。
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!