vipwhr 2016-05-03 05:54 采纳率: 0%
浏览 1350
已结题

爬虫到的职位信息分类问题

现在遇到了一个问题需要大家帮忙分析一下。

背景介绍:

现在想完成一个利用爬虫获取职位信息,并进行汇总统计查询的应用。
并且爬虫部分没什么大问题了。已经能获取并存入数据库了。
现在的测试都是用智联招聘测试的。

问题描述:

如果现在想完成一个分类搜索的功能。
比如点击某个职位,就会搜索这个职位的信息这样的功能。
我该如何获取到一条条数据的职位分类呢?
爬取到的HTML上没有相关的分类信息。
这是爬取的HTML中关于一条职位的信息内容:


<table cellpadding="0" cellspacing="0" width="853" class="newlist"> 
           <tbody>
            <tr> 
             <td class="zwmc" style="width: 250px;"> <input type="checkbox" name="vacancyid" value="CC265613219J90250003000_538_1_03_201__1_" onclick="zlapply.uncheckAll('allvacancyid')"> 
              <div style="width: 224px;*width: 218px; _width:200px; float: left"> 
               <a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03" href="http://jobs.zhaopin.com/265613219250003.htm" target="_blank">半导体FAE测试工程师</a> 
              </div> </td> 
             <td style="width: 60px;" class="fk_lv"><span></span></td> 
             <td class="gsmc"><a href="http://company.zhaopin.com/%E4%B8%AD%E8%8C%82%E7%94%B5%E5%AD%90%28%E4%B8%8A%E6%B5%B7%29%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8_CC265613219.htm" target="_blank">中茂电子(上海)有限公司</a></td> 
             <td class="zwyx">面议</td> 
             <td class="gzdd">上海 - 徐汇区</td> 
             <td class="gxsj"><span>04-18</span><a class="newlist_list_xlbtn" href="javascript:;"></a></td> 
            </tr> 
            <tr style="display: none" class="newlist_tr_detail"> 
             <td width="833px" style="line-height: 0;" colspan="6"> 
              <div class="newlist_detail"> 
               <div class="clearfix"> 
                <ul> 
                 <li class="newlist_deatil_two"><span>地点:上海 - 徐汇区</span><span>公司性质:外商独资</span><span>公司规模:20-99人</span><span>学历:本科</span></li>
                 <li class="newlist_deatil_last"> 要求: 1. 电子工程类相关专业本科学历,半导体及集成电路相关专业为佳(大学课程须有数字电路及模拟电路课程)。 2. 掌握C,C++编程语言,能够编写及调试程序;有windows系统相关工具使用经验(word,excel ,ppt),对windows系统能 熟练使用。 3. 有一定的英语阅...</li> 
                </ul> 
                <dl> 
                 <dt> 
                  <a href="javascript:void(0)" onclick="return zlapply.searchjob.ajaxApplyBrig1('CC265613219J90250003000_538','ssi','_1_03_201__2_')"> <img src="/assets/images/newlist_sqimg_03.jpg"> </a> 
                 </dt> 
                 <dd>
                  <a href="javascript:zlapply.searchjob.saveOne('CC265613219J90250003000_538')"><img src="/assets/images/newlist_scimg_06.jpg"></a>
                 </dd> 
                </dl> 
               </div> 
              </div> </td>
            </tr> 
           </tbody>
          </table> 

而且这样关于分类的各种功能都不是很好做,按照工作分类啊,按照城市信息啊之类的。

还望大神们帮帮忙,帮我想出一个比较可行的分类查询的方案。

谢谢了!

  • 写回答

2条回答 默认 最新

  • oyljerry 2016-05-03 08:34
    关注

    你这个需要目标网站有提供分类,然后你保存这个分类变量和数据。

    评论

报告相同问题?

悬赏问题

  • ¥50 如何增强飞上天的树莓派的热点信号强度,以使得笔记本可以在地面实现远程桌面连接
  • ¥15 MCNP里如何定义多个源?
  • ¥20 双层网络上信息-疾病传播
  • ¥50 paddlepaddle pinn
  • ¥20 idea运行测试代码报错问题
  • ¥15 网络监控:网络故障告警通知
  • ¥15 django项目运行报编码错误
  • ¥15 请问这个是什么意思?
  • ¥15 STM32驱动继电器
  • ¥15 Windows server update services