Boss直聘岗位招聘分析数据爬取失败

期末作业是爬取Boss直聘岗位相关数据，前期结合所学和网上的代码，但CSV文件中仍是空的，找不到问题，还望大家帮忙看看问题出在哪儿，谢谢大家！

import requests
import csv
import pandas as pd
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
cookie="__zp__pub__=; lastCity=101110100; __zp_stoken__=ddfaaC1oxcwcya3oOXUNWPSV5Vn9mfABYVFAhHlNZG1cvMgZMNnVnHHNKSzcYaQtJQSADE3tSZTopfT5ka30GRSlaU3c6ckVVaR4eBiMvDT8aR38lBkcNWAI8UVctTitNAxlGbCBbZz9gTSU%3D; t=Oh8LmQ5pyMOhjqah; wt=Oh8LmQ5pyMOhjqah; sid=sem_pz_bdpc_dasou_title; __c=1591769829; __g=sem_pz_bdpc_dasou_title; __l=l=%2Fwww.zhipin.com%2Fxian%2F%3Fsid%3Dsem_pz_bdpc_dasou_title&r=https%3A%2F%2Fsp0.baidu.com%2F9q9JcDHa2gU2pMbgoY3K%2Fadrc.php%3Ft%3D06KL00c00fDdiHC088qh0KZEgsZ9X8KX00000ZoOx7C00000UkfexZ.THdBULP1doZA80K85yF9pywd0ZnquAu9rjTdnj6snj0YrHc4mfKd5Hmkwbnsn1RzfbmLn1mvfRPArRf4wjnsfRcvf1wAn1bd0ADqI1YhUyPGujY1n1f1PWTsnHckFMKzUvwGujYkP6K-5y9YIZK1rBtEILILQMGCpgKGUB4WUvYE5LPGujd1uydxTZGxmhwsmdqbmgPEINqYpgw_ufKWThnqn1nYrHD%26tpl%3Dtpl_11534_22672_17382%26l%3D1518141306%26attach%3Dlocation%253D%2526linkName%253D%2525E6%2525A0%252587%2525E5%252587%252586%2525E5%2525A4%2525B4%2525E9%252583%2525A8-%2525E6%2525A0%252587%2525E9%2525A2%252598-%2525E4%2525B8%2525BB%2525E6%2525A0%252587%2525E9%2525A2%252598%2526linkText%253DBOSS%2525E7%25259B%2525B4%2525E8%252581%252598%2525E2%252580%252594%2525E2%252580%252594%2525E6%252589%2525BE%2525E5%2525B7%2525A5%2525E4%2525BD%25259C%2525EF%2525BC%25258C%2525E6%252588%252591%2525E8%2525A6%252581%2525E8%2525B7%25259F%2525E8%252580%252581%2525E6%25259D%2525BF%2525E8%2525B0%252588%2525EF%2525BC%252581%2526xp%253Did(%252522m3343670121_canvas%252522)%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FH2%25255B1%25255D%25252FA%25255B1%25255D%2526linkType%253D%2526checksum%253D140%26ie%3DUTF-8%26f%3D8%26tn%3Dbaidu%26wd%3DBoss%25E7%259B%25B4%25E8%2581%2598%26oq%3DBoss%25E7%259B%25B4%25E8%2581%2598%26rqlang%3Dcn&g=%2Fwww.zhipin.com%2Fxian%2F%3Fsid%3Dsem_pz_bdpc_dasou_title&friend_source=0&friend_source=0; _bl_uid=I3k1mb9y8d8y37ngjsvq4eevzRaj; __zp_seo_uuid__=8792ec29-03f0-439e-86f2-1b86c2c55784; __a=40025213.1591065226.1591691731.1591769829.57.7.3.3"
def get_one_page(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) ' + 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}
        html = requests.get(url, headers=headers)
        if html.status_code == 200:
            return html.text
        return None
    except RequestException:
        return None
result_all = [] # 用于存储样本
def parse_one_page(html):
    soup = BeautifulSoup(html, 'lxml')
    companies = soup.find_all('div', 'job-primary', True)
    for com in companies:
        res = parse_one_company(com)
        result_all.append(res)

def parse_one_company(comp):
    result = []
    company_soup = comp.find('div', class_='info-company')
    com_desc = company_soup.find('p').text
    primary_soup = comp.find('div', class_='info-primary')
    job_name = primary_soup.find('div').text
    salary = primary_soup.find('span').text
    requirement = primary_soup.find('p').text
    result.append(com_desc)
    result.append(job_name)
    result.append(salary)
    result.append(requirement)
    return result

def parse_all_page(num, offset):
    url1 = 'https://www.zhipin.com/c101280100/h_101280100/?query=数据分析师&page='+str(offset)+'&ka=page-'+str(offset) # 广州
    url2 = 'https://www.zhipin.com/c101280600/h_101280600/?query=数据分析师&page='+str(offset)+'&ka=page-'+str(offset) # 深圳
    url3 = 'https://www.zhipin.com/c101010100/h_101010100/?query=数据分析师&page='+str(offset)+'&ka=page-'+str(offset) # 北京
    url4 = 'https://www.zhipin.com/c101020100/h_101020100/?query=数据分析师&page='+str(offset)+'&ka=page-'+str(offset) # 上海
    urldict = {'1':url1, '2':url2, '3':url3, '4':url4}
    html = get_one_page(urldict[str(num)])
    parse_one_page(html)

if __name__ == '__main__':
    for j in range(1, 5):
        for i in range(1,11):
            parse_all_page(j, i)
    file = pd.DataFrame(result_all, columns=['公司信息', '岗位', '薪水', '其他'])
    # encoding='utf_8_sig解决保存到CSV文件后显示乱码问题
    file.to_csv('Bosszhiping_four_city.csv', mode='a', index=True, encoding='utf_8_sig')


``

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

编程理想国 2020-06-10 18:56

关注

你确定爬到了页面的数据吗？我用代码测试的时候发现爬到的都是

请稍后的页面

爬取boss直聘需要在请求里带上自己的cookies，并且它的cookies每次都会变，这需要你自己来想办法通过它的js文件获取了，下面的代码实现了爬取并存储到csv文件，运行前更换cookie，并删除原本你目录里的csv文件

import requests
import csv
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup
from requests.exceptions import RequestException



def get_one_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) ' + 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
        cookies = "__zp__pub__=; _uab_collina=159178398373799871604155; lastCity=100010000; __c=1591783980; __g=-; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1591783980; __l=l=%2Fwww.zhipin.com%2Fc101280100%2Fh_101280100%2F%3Fquery%3D%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588&r=&friend_source=0&friend_source=0; __a=942990.1591783980..1591783980.8.1.8.8; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1591834512; __zp_stoken__=226aaABFRYnVuOBpEfiQLP1IsSndBHmsQQFh2eBYxWmU7UHwcXAAhW1wdHWB%2BIVo0HmQDGF1EawMDHH0Edz8%2BIXY2XRwMFQNge0YlZzI2CHdFAzBuZVQVbTVzdV4tDzp%2FXF1GZwY%2FSHRLBg0%3D"
        cook_dict = {cookie.split('=')[0]: cookie.split('=')[1] for cookie in cookies.split('; ')}
        html = requests.get(url, headers=headers, cookies=cook_dict)
        if html.status_code == 200:
            return html.content.decode('utf-8')
        return None
    except RequestException:
        return None


result_all = []  # 用于存储样本


def parse_one_page(html):
    soup = BeautifulSoup(html, 'lxml')
    companies = soup.find_all('div', 'job-primary', True)
    for com in companies:
        res = parse_one_company(com)
        result_all.append(res)


def parse_one_company(comp):
    result = []
    company_soup = comp.find('div', class_='info-company')
    com_desc = company_soup.find('a').text
    job_soup = comp.find('div', class_='job-title')
    job_name = job_soup.find('a').text
    salary_soup = comp.find('div', class_='job-limit clearfix')
    salary = salary_soup.find('span').text
    requirement = salary_soup.find('p').text
    result.append(com_desc)
    result.append(job_name)
    result.append(salary)
    result.append(requirement)
    return result


def parse_all_page(num, offset):
    url1 = 'https://www.zhipin.com/c101280100/h_101280100/?query=数据分析师&page=' + str(offset) + '&ka=page-' + str(
        offset)  # 广州
    url2 = 'https://www.zhipin.com/c101280600/h_101280600/?query=数据分析师&page=' + str(offset) + '&ka=page-' + str(
        offset)  # 深圳
    url3 = 'https://www.zhipin.com/c101010100/h_101010100/?query=数据分析师&page=' + str(offset) + '&ka=page-' + str(
        offset)  # 北京
    url4 = 'https://www.zhipin.com/c101020100/h_101020100/?query=数据分析师&page=' + str(offset) + '&ka=page-' + str(
        offset)  # 上海
    urldict = {'1': url1, '2': url2, '3': url3, '4': url4}
    html = get_one_page(urldict[str(num)])
    parse_one_page(html)


if __name__ == '__main__':
    for j in range(1, 5):
        for i in range(1, 11):
            parse_all_page(j, i)
    print(result_all)
    file = pd.DataFrame(result_all, columns=['公司信息', '岗位', '薪水', '其他'])
    # encoding='utf_8_sig解决保存到CSV文件后显示乱码问题
    file.to_csv('Bosszhiping_four_city.csv', mode='a', index=True, encoding='utf_8_sig')

报告相同问题？

关注问题

通过python的selenium爬取boss直聘的岗位信息
2025-03-27 14:19

魂万劫的博客（ps：不得不说，boss直聘的岗位筛选做得真的是拉得一批，几个月半年不在线的还放出来放在前面，搞个好点权重或者活跃筛选有那么难吗，在招聘领域占市场那么大的份额，一点上进心都没有，尸位素餐，简直混账。...
通过python爬取boss直聘
2024-06-11 18:09

m0_64844690的博客开发工具 Python Pycharm import requests from bs4 import BeautifulSoup 相关模块可用pip命令安装网页数据分析如图所示，这些数据都是今天要获取的内容一、打开开发者工具得到登录信息二、分析网页数据结构...
Python基于大数据的Boss直聘招聘可视化系统，附源码
2024-09-21 19:33

程序员徐师兄的博客嗨喽，大家好，今天为大家带来的是基于大数据的Boss直聘招聘可视化系统，Python基于Django的Boss直聘招聘可视化项目，该项目使用 Django 框架，Mysql 数据库，request，selenium 框架进行爬虫，实现招聘数据的采集，...
Python 爬虫实战案例 - 获取BOSS直聘网招聘职位信息
2025-01-04 23:55

西攻城狮北的博客通过本次实战，我们成功运用 Python 爬虫技术从 BOSS 直聘网获取了关键招聘职位信息。从最初精准锚定实战目标，到细致剖析网页结构、巧妙突破网页请求限制、精准解析网页数据，再到妥善保存数据，每一步都环环相扣，...
基于 Python + Django 的Boss直聘招聘数据分析系统（附源码，文档）
2025-02-17 22:15

chusheng1840的博客今天给大家带来的是一个基于的招聘数据可视化系统 ——Boss直聘招聘数据分析项目。该项目结合了Django框架、MySQL数据库以及Selenium爬虫技术，通过爬取 Boss 直聘网站上的招聘信息，并进行清洗与可视化分析。界面...
职场必备：Python 爬取 BOSS 直聘岗位数据（薪资 / 要求分析）
2025-11-13 23:55

python 爬虫工程师的博客摘要：本文介绍了使用Python爬取BOSS直聘招聘数据的完整流程。首先搭建Python环境并安装requests、BeautifulSoup、pandas等必备库，分析BOSS直聘页面结构和数据提取方式。通过Selenium模拟浏览器操作爬取岗位列表和...
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南
2025-06-16 23:05

程序员威哥的博客本文手把手教你打造高质量Python爬虫系统，精准采集BOSS直聘招聘数据。通过分析网页结构和反爬机制，详细讲解了如何模拟请求、处理加密参数、解析并存储数据。核心代码涵盖请求模拟、数据提取和CSV/MongoDB存储实现...
基于Python Django的Boss直聘数据分析与可视化系统（附源码，文档说明）
2024-10-21 22:30

IT徐师兄的博客基于Python Django的Boss直聘数据分析与可视化系统，本系统的主要功能包括招聘数据的采集、存储、处理、分析和可视化展示。首先，通过网络爬虫技术，系统能够自动从招聘网站上抓取招聘信息，并将其存储到数据库中。...
Python爬虫实战：全面解析Boss直聘岗位信息爬取及反爬破解
2025-06-13 01:12

Python爬虫项目的博客建议使用Python 3.9+，支持最新异步库及安全特性。
boss直聘账号异常登不上_python爬虫Scrapy:爬取boss数据
2020-11-21 20:13

weixin_39577908的博客一、概述学习python有一... 这次我选择爬取boss直聘的招聘信息数据，毕竟这个网站的数据还是很有参考价值的，下面我们讲述怎么爬取boss直聘的招聘信息并存盘，下一篇文章我们在对爬取到的数据进行分析。二、Scrapy...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

Boss直聘岗位招聘分析数据爬取失败

2条回答默认最新

码龄粉丝数原力等级 --

Boss直聘岗位招聘分析 数据爬取失败

2条回答 默认 最新

Boss直聘岗位招聘分析数据爬取失败

2条回答默认最新