这是咋回事啊？改了好久都不对

这是咋回事啊？改了好久都不对。
import json
import re
import requests
from lxml import etree
import csv

class Spider(object):

def __init__(self):
    self.keyword = input("请输入搜索关键词：")
    self.url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,{}.html'  # 网页url
    self.headers = {
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
                    'cookie': '_uab_collina=162694245076236003474511; guid=2806f21dc07e57b92a6d38ae6ad831db; nsearch=jobarea%3D%26%7C%26ord_field%3D%26%7C%26recentSearch0%3D%26%7C%26recentSearch1%3D%26%7C%26recentSearch2%3D%26%7C%26recentSearch3%3D%26%7C%26recentSearch4%3D%26%7C%26collapse_expansion%3D; search=jobarea%7E%60000000%7C%21ord_field%7E%600%7C%21recentSearch0%7E%60000000%A1%FB%A1%FA000000%A1%FB%A1%FA0000%A1%FB%A1%FA00%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA9%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA0%A1%FB%A1%FA%C9%CC%CE%F1%D3%A2%D3%EF%A1%FB%A1%FA2%A1%FB%A1%FA1%7C%21; acw_tc=2f624a4216269424503425150e0da85d25580876b2bc112b8d45305e878b60; acw_sc__v2=60f92bf226271b72b3adf6a65ef4bd4094c491a1; ssxmod_itna=QqmxnQi=qmuDB7DzOD2YLDkYOIhm0DDTaRweqxKDspbDSxGKidDqxBmnj2wAehYi+zDBIaoe=Du+QLzm2idILYIYfAa/UDB3DEx064btxYAkDt4DTD34DYDixibsxi5GRD0KDF8NVt/yDi3DbE=Di4D+8MQDmqG0DDU7S4G2D7U9R7Dr8q2U7nt3EkDeLA+9D0tdxBLeFpTYOcarBqrb=1K4KDDHD8H=9cDKY8GxHgQDzqODtqNMSMd3yPtVRk0s+SDolhGTK7P4fGAG7BhzlIx=b+hnv0Dbf0D+YbudUiL6xDf57B5QeD==; ssxmod_itna2=QqmxnQi=qmuDB7DzOD2YLDkYOIhm0DDTaRweqxikfoOqDlZ0DjbP6kjY6h6xlUxnzDCA6QPs7q0=PLYWwuza8UL+RLPoiBAFL=xnR6L1xqP8B2Fr8=xT67LRjkMy+62=MZEon/zHzWxTPGiqxdcqqQ0K=y=DbyjqrMCHWWfFrt3bIw2B150E=SnYWY2P7dZIi+=FTE3K80nq7eWfj=Fr=4SI7S+nLg/K0OlKXNZ9jaj96GEkTLSQQv+PbLflkyG3=Y1y1Z68NhO4Us7qqNQStVY90lDw7edKHeoFRuV/c=NnM2v3Z2TQS=dVZUTgKS63hiXTcqSp6K+NC6N8cYY96Mc=PKrujN3Er32PKmohY50Dr3O25tratE3UbbZb3S0K1XdPTkrrOFi8trK9To+iHUih/Uetr0rqrITbFW7/DaDG2z0qYDQKGmBRxtYa6S=AfhQifW9bD08DiQrYD==='
                    }  
    self.header = ['position', 'company', 'wages', 'place', 'education', 'work_experience', 'release_date',
                   'limit_people', 'address', 'company_type', 'company_size', 'industry'] 
    self.fp = open('{}.csv'.format(self.keyword), 'a', encoding='utf-8-sig', newline='')  
    self.writer = csv.DictWriter(self.fp, self.header) 
    self.writer.writeheader() 

def get_end_page(self): 
    response = requests.get(self.url.format(self.keyword, str(1)), headers=self.headers)
    text = response.content.decode('gb18030')  
    json_obj = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', text)
    print(json_obj)
    py_obj = json.loads(json_obj[0])
    end_page = py_obj['total_page']
    return end_page

def get_url(self, count):
    response = requests.get(url=self.url.format(self.keyword, count), headers=self.headers)  

    text = response.content.decode('gb18030')
    json_obj = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', text)
    py_obj = json.loads(json_obj[0])
    detail_urls = [i['job_href'] for i in py_obj['engine_search_result']]
    return detail_urls  

def parse_url(self, url):
    response = requests.get(url=url, headers=self.headers)
    try:  # 这里可能会出现解码错误，因为有个别很少的特殊网页结构，另类来的，不用管
        text = response.content.decode('gb18030')
        html = etree.HTML(text)
        position = html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/h1/@title")[0]  # 职位名
    except Exception as e:
        print("特殊网页：{}，结束执行该函数，解析下一个详情url".format(e))
        return  
    company = "".join(html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/p[1]/a[1]//text()"))  # 公司名
    wages = "".join(html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/strong/text()"))  # 工资
    informations = html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/p[2]/text()")  # 获取地点经验学历等信息
    informations = [i.strip() for i in informations] 
    place = informations[0] 
    education = "".join([i for i in informations if i in '初中及以下高中/中技/中专大专本科硕士博士无学历要求'])  # 通过列表推导式获取学历
    work_experience = "".join([i for i in informations if '经验' in i]) 
    release_date = "".join([i for i in informations if '发布' in i])  
    limit_people = "".join([i for i in informations if '招' in i]) 
    address = "".join(html.xpath("//div[@class='tCompany_main']/div[2]/div[@class='bmsg inbox']/p/text()"))  # 上班地址
    company_type = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[1]/@title"))  # 公司类型
    company_size = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[2]/@title"))  # 公司规模
    industry = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[3]/@title"))  # 所属行业

    item = {'position': position, 'company': company, 'wages': wages, 'place': place, 'education': education,
            'work_experience': work_experience, 'release_date': release_date, 'limit_people': limit_people,
            'address': address, 'company_type': company_type, 'company_size': company_size,
            'industry': industry} 
    print(item)
    self.writer.writerow(item)

if name == 'main':
print("爬虫开始")
spider = Spider()
end_page = spider.get_end_page() # 获取该职位的总页数
print("总页数：{}".format(end_page))
page = input("输入采集页数：")
for count in range(1, int(page) + 1):
detail_urls = spider.get_url(count)
for detail_url in detail_urls:
spider.parse_url(detail_url)
print("已爬取第{}页".format(count))

spider.fp.close()  
print("爬取结束")

展开全部

写回答
好问题 1 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

游一游走一走 2022-11-13 03:57

关注

编码请都设置为utf-8，现在的网页一般都是utf-8的
另外你这个爬虫估计运行不了，网站有反爬设置

# coding=utf-8
import json
import re
import requests
from lxml import etree
import csv


class Spider(object):
    def __init__(self):
        self.keyword = input("请输入搜索关键词：")
        self.url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,{}.html'  # 网页url
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
            'cookie': '_uab_collina=162694245076236003474511; guid=2806f21dc07e57b92a6d38ae6ad831db; nsearch=jobarea%3D%26%7C%26ord_field%3D%26%7C%26recentSearch0%3D%26%7C%26recentSearch1%3D%26%7C%26recentSearch2%3D%26%7C%26recentSearch3%3D%26%7C%26recentSearch4%3D%26%7C%26collapse_expansion%3D; search=jobarea%7E%60000000%7C%21ord_field%7E%600%7C%21recentSearch0%7E%60000000%A1%FB%A1%FA000000%A1%FB%A1%FA0000%A1%FB%A1%FA00%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA9%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA0%A1%FB%A1%FA%C9%CC%CE%F1%D3%A2%D3%EF%A1%FB%A1%FA2%A1%FB%A1%FA1%7C%21; acw_tc=2f624a4216269424503425150e0da85d25580876b2bc112b8d45305e878b60; acw_sc__v2=60f92bf226271b72b3adf6a65ef4bd4094c491a1; ssxmod_itna=QqmxnQi=qmuDB7DzOD2YLDkYOIhm0DDTaRweqxKDspbDSxGKidDqxBmnj2wAehYi+zDBIaoe=Du+QLzm2idILYIYfAa/UDB3DEx064btxYAkDt4DTD34DYDixibsxi5GRD0KDF8NVt/yDi3DbE=Di4D+8MQDmqG0DDU7S4G2D7U9R7Dr8q2U7nt3EkDeLA+9D0tdxBLeFpTYOcarBqrb=1K4KDDHD8H=9cDKY8GxHgQDzqODtqNMSMd3yPtVRk0s+SDolhGTK7P4fGAG7BhzlIx=b+hnv0Dbf0D+YbudUiL6xDf57B5QeD==; ssxmod_itna2=QqmxnQi=qmuDB7DzOD2YLDkYOIhm0DDTaRweqxikfoOqDlZ0DjbP6kjY6h6xlUxnzDCA6QPs7q0=PLYWwuza8UL+RLPoiBAFL=xnR6L1xqP8B2Fr8=xT67LRjkMy+62=MZEon/zHzWxTPGiqxdcqqQ0K=y=DbyjqrMCHWWfFrt3bIw2B150E=SnYWY2P7dZIi+=FTE3K80nq7eWfj=Fr=4SI7S+nLg/K0OlKXNZ9jaj96GEkTLSQQv+PbLflkyG3=Y1y1Z68NhO4Us7qqNQStVY90lDw7edKHeoFRuV/c=NnM2v3Z2TQS=dVZUTgKS63hiXTcqSp6K+NC6N8cYY96Mc=PKrujN3Er32PKmohY50Dr3O25tratE3UbbZb3S0K1XdPTkrrOFi8trK9To+iHUih/Uetr0rqrITbFW7/DaDG2z0qYDQKGmBRxtYa6S=AfhQifW9bD08DiQrYD==='
        }
        self.header = ['position', 'company', 'wages', 'place', 'education', 'work_experience', 'release_date',
                       'limit_people', 'address', 'company_type', 'company_size', 'industry']
        self.fp = open('{}.csv'.format(self.keyword), 'a', encoding='utf-8-sig', newline='')
        self.writer = csv.DictWriter(self.fp, self.header)
        self.writer.writeheader()


    def get_end_page(self):
        response = requests.get(self.url.format(self.keyword, str(1)), headers=self.headers)
        text = response.content.decode('utf-8')
        json_obj = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', text)
        print(json_obj)
        py_obj = json.loads(json_obj[0])
        end_page = py_obj['total_page']
        return end_page


    def get_url(self, count):
        response = requests.get(url=self.url.format(self.keyword, count), headers=self.headers)

        text = response.content.decode('utf-8')
        json_obj = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', text)
        py_obj = json.loads(json_obj[0])
        detail_urls = [i['job_href'] for i in py_obj['engine_search_result']]
        return detail_urls


    def parse_url(self, url):
        response = requests.get(url=url, headers=self.headers)
        try:  # 这里可能会出现解码错误，因为有个别很少的特殊网页结构，另类来的，不用管
            text = response.content.decode('utf-8')
            html = etree.HTML(text)
            position = html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/h1/@title")[0]  # 职位名
        except Exception as e:
            print("特殊网页：{}，结束执行该函数，解析下一个详情url".format(e))
            return
        company = "".join(html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/p[1]/a[1]//text()"))  # 公司名
        wages = "".join(html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/strong/text()"))  # 工资
        informations = html.xpath("//div[@class='tHeader tHjob']//div[@class='cn']/p[2]/text()")  # 获取地点经验学历等信息
        informations = [i.strip() for i in informations]
        place = informations[0]
        education = "".join([i for i in informations if i in '初中及以下高中/中技/中专大专本科硕士博士无学历要求'])  # 通过列表推导式获取学历
        work_experience = "".join([i for i in informations if '经验' in i])
        release_date = "".join([i for i in informations if '发布' in i])
        limit_people = "".join([i for i in informations if '招' in i])
        address = "".join(html.xpath("//div[@class='tCompany_main']/div[2]/div[@class='bmsg inbox']/p/text()"))  # 上班地址
        company_type = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[1]/@title"))  # 公司类型
        company_size = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[2]/@title"))  # 公司规模
        industry = "".join(html.xpath("//div[@class='tCompany_sidebar']/div[1]/div[2]/p[3]/@title"))  # 所属行业

        item = {'position': position, 'company': company, 'wages': wages, 'place': place, 'education': education,
                'work_experience': work_experience, 'release_date': release_date, 'limit_people': limit_people,
                'address': address, 'company_type': company_type, 'company_size': company_size,
                'industry': industry}
        print(item)
        self.writer.writerow(item)


if __name__ == '__main__':
    print("爬虫开始")
    spider = Spider()
    end_page = spider.get_end_page()  # 获取该职位的总页数
    print("总页数：{}".format(end_page))
    page = input("输入采集页数：")
    for count in range(1, int(page) + 1):
        detail_urls = spider.get_url(count)
    for detail_url in detail_urls:
        spider.parse_url(detail_url)
    print("已爬取第{}页".format(count))
    spider.fp.close()
    print("爬取结束")

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

m0_68280323 2022-11-13 04:22

那这个代码就是不能用了是吗，有解决办法吗

m0_68280323 2022-11-13 04:34

那这个代码 不能用了是吗，有办法吗

查看更多回答(3条)

编辑

预览

报告相同问题？

关注问题

38从零开始学Java之封装到底是咋回事？
2023-06-02 00:59

一一哥Sun的博客我们知道，Java是面向对象的编程语言。关于面向对象的概念，壹哥在之前的文章中就已经给大家详细地讲过了。但是关于面向对象，我们还有另一块不得不学的内容，那就是面向对象的特征！可以说，面向对象的三大特征，是...
java跨平台究竟是咋回事？经典面试题：Jdk、jre、jvm的不同
2020-04-16 11:56

搞点color吧的博客从刚开始学习java开始，就一直听说java是跨平台的语言，但是很难理解到底是如何跨平台的啥叫编程？首先我们理解一下我们安装jdk会生成一个jdk的文件目录，一个jre的文件目录，那么jdk就是对我们写的代码进行解码...
什么是编程？大道之行也，编程为公！
2021-02-03 05:52

编程IT圈的博客 “编程”意识“编程”是什么？这个问题可能除了学过计算机相关专业的人，其他各行各业的人都有对这个问题不同程度的疑惑。我第一次听“编程”这两个词还是在我上了大学之后。我出生在我国大西北(青海)...
什么是编程？大道之行也，“编程”为公
2021-02-25 12:01

泰斗贤若如的博客这个问题可能除了学过计算机相关专业的人，其他各行各业的人都有对这个问题不同程度的疑惑。我第一次听“编程”这两个词还是在我上了大学之后。我出生在我国大西北(青海)的某个小乡村，小学是在我们县城的一个小镇...
C语言为何不会过时？你需要掌握多少种语言？
2020-11-02 00:36

编程与实战的博客 (给C语言与CPP编程加星标，提升C/C++技能)来源：嵌入式ARM01为什么C语言不会过时评价任何一门编程语言，都是招人骂的。永远是这样。就像是春寒料峭的季节，街上穿棉袄和穿单衣的擦...
腾讯同事要跳槽，问我背包问题具体咋回事，我直接甩给他这篇！
2021-01-19 03:44

代码随想录的博客这将是你看完的全网最详细的01背包讲解！
我发现买不起自己出版的书了，这到底是咋回事？
2023-02-03 09:08

冰河的博客新书上市，我发现买不起自己出版的书了，这到底是咋回事？
脑语言v0.5.8 2500令【单字编程】
2022-07-10 22:55

脑语言的博客这是脑语言v0.5.8版的2500个单字（也称为“令”与“一令”），通过【单字编程】（并不仅是中文编程，而是混合英文关键字，但以单字为主的命名）也许是英文不太好时又希望能写代码的其中一种方式。我在做脑语言...
php编程与java编程,PHP编程与java编程语言之间的区别
2021-04-19 00:47

波拿拿的博客 PHP与java编程语言之间一直存在很多的竞争关系，尤其对于计算机编程新人来说，选择PHP还是选择java都没有自己的想法。今天，我们就一起来了解一下PHP编程与java编程之间的问题有哪些。槽点1：哪有好的语言，只有合适...
AI全栈大模型工程师(十一)AI编程
2023-10-30 08:37

AIMaynor的博客比如：一个函数，正则表达式，全套 try-catch，对某 API 的调用等对已有代码改写，比如：加功能、注释、测试用例，让代码更易读、易维护、更安全根据错误信息改 bug解释代码，辅助阅读代码开发工具使用，比如：...
【科普】一读就懂：CPU到底是怎么识别代码的？
2021-06-23 09:37

OpenFPGA的博客具体逻辑电路图我就不画，你们知道咋回事就行了。那乘3呢？简单，先位移一次（乘2）再加一次。乘5呢？先位移两次（乘4）再加一次。所以一般简单的CPU是没有乘法的，而乘法则是通过位移和加算的组合来通过软件来...
C 语言为什么不会过时？
2020-10-09 00:45

weixin_38754349的博客 code小生一个专注大前端领域的技术平台公众号回复Android加入安卓技术群整理自网络作者:赵岩/Serdar等01、为什么C语言不会过时评价任何一门编程语言，都是招人骂的。永...
makefile 无法工作_什么是Makefile，它如何工作？
2020-07-10 23:55

cuml0912的博客输出将是： $ make echo "Hello World" Hello World 在上面的示例中，在任何编程语言中， say_hello行为都类似于函数名。这称为目标。先决条件或依赖项遵循目标。为了简单起见，在此示例中我们没有定义任何先决...
数据中台为什么不好搞？
2022-05-21 01:00

码农code之路的博客 Stream 看着挺好，但实际用起来完全不是那么回事。Stream 的中间计算结果和最终结果都要事先定义，而结构的定义和赋值都很麻烦，如果不定义，阅读和使用又不直观。而且 Stream 虽然支持 lambda 语法，但接口规则比较...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月13日

这是咋回事啊？改了好久都不对

4条回答 默认 最新

问题事件

4条回答默认最新