爬虫代码出现问题，不知道改哪里了


job_name= []
company_name =[]
workarea =[]
providesalary =[]
attribute =[]
def get_job_list(keyword=None,page=1):
    key = urllib.parse.quote(urllib.parse.quote(keyword))
    url='https://search.51job.com/list/000000,000000,0000,00,9,99,' +key+',2,'+str(page)+'.html'
    headers = {
        'Host': 'search.51job.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400',
    }
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        html = response.text

    with open('/home/aistudio/work/index.html', mode='w',encoding='gbk') as f:
            f.write(html)
            pattern ='window\._SEARCH_RESULT_ =({.+?}) </script>'
            data =re.findall(patten,html)[0]
            job_list = json.loads(data)
            for job in job_list["engine_jds"]:
                job_name.append(job["job_name"])
                company_name.append(job["company_name"])
                workarea.append(job["workarea_text"])
                salary.append(job["providesalary_text"]
                attribute.append(",".join(job["attribute_text"]))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

chuifengde 2021-10-26 21:16

关注

import requests
import json
import urllib
import re

job_name= []
company_name =[]
workarea =[]
providesalary =[]
attribute =[]
def get_job_list(keyword=None,page=1):
    key = urllib.parse.quote(urllib.parse.quote(keyword))
    url='https://search.51job.com/list/000000,000000,0000,00,9,99,' +key+',2,'+str(page)+'.html'
    headers = {
        'Host': 'search.51job.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400',
    }
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        html = response.text
    with open('/index.html', mode='w',encoding='gbk') as f:
        f.write(html)
        pattern ='window\.__SEARCH_RESULT__ = ({.*?})</script>'
        data =re.findall(pattern,html, re.DOTALL)
        job_list = json.loads(data[0])
        for job in job_list["engine_jds"]:
            job_name.append(job["job_name"])
            company_name.append(job["company_name"])
            workarea.append(job["workarea_text"])
            # salary.append(job["providesalary_text"])
            attribute.append(",".join(job["attribute_text"]))
            
get_job_list("计算机")

print(job_name)

报告相同问题？

关注问题

python爬虫代码出现错误 python 爬虫
2022-08-23 16:00

回答 1 已采纳导入了太多没有用的模块，参考我的代码： import requests #发送HTTP请求 from bs4 import BeautifulSoup headers ={ "User-Age
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要替换链接、文件，就可以轻松完成。并且这些几个实用技巧，简直是 ...
python爬虫代码运行输出结果不完整 pycharm python 爬虫
2021-11-20 01:32

回答 1 已采纳不知道你解决了没，我就简单说一下我的解决方法。 obj3 = re.compile(r'<div id="Zoom">.*?◎片　　名(?P<movie>.*?)<br
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
python爬虫大作业报告+代码
2021-12-30 17:42

所学Python技术设计并实现一个功能完整的系统，并撰写总结报告。要求：（1）实现时需要至少使用图形界面、多线程、文件操作、数据库编程、网页爬虫、统计分析并绘图（或数据挖掘）六项技术，缺一不可。少一项则...
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
Python，爬虫 HTML代码不理解 javascript python 爬虫
2022-03-20 16:01

回答 2 已采纳鼠标右击复制xpath路径即可。那下一页的按钮应该是li节点 //*[@id="content-box"]/ul/li[4]
python 爬虫遇到一个不知道该怎么说的一个问题 python
2021-03-30 16:03

回答 1 已采纳 PROXY = '"'+get_ip()+'"'这样写的是错的应该写成PROXY = get_ip()，因为get_ip（）返回的已经是字符串。
Python爬虫完整代码拿走不谢
2023-03-22 09:46

q56731523的博客对于新手做Python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
蜻蜓FM爬虫音频代码python
2024-03-29 10:03

蜻蜓FM爬虫音频代码python，注意修改config.json。蜻蜓FM爬虫音频代码python，注意修改config.json。蜻蜓FM爬虫音频代码python，注意修改config.json。蜻蜓FM爬虫音频代码python，注意修改config.json。蜻蜓FM爬虫...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月26日

悬赏问题

¥15 java面向对象程序设计
¥20 Keil uVision5创建project没反应
¥15 mmseqs内存报错
¥15 vika文档如何与obsidian同步
¥15 华为手机相册里面的照片能够替换成自己想要的照片吗？
¥15 陆空双模式无人机飞控设置
¥15 sentaurus lithography
¥100 求抖音ck号或者提ck教程
¥15 关于#linux#的问题：子进程1等待子进程A、B退出后退出(语言-c语言)
¥20 web页面如何打开Outlook 365的全球离线通讯簿功能

爬虫代码出现问题，不知道改哪里了

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新