jupyter中的爬虫中的json的数据转换

jupyter中爬取数据时json的格式问题

url = url0+urlencode(params)
        print(url)
        #requests请求，设置请求时间最长为30秒，超时报错
        r = requests.get(url,headers=headers,timeout=30)
        #print(r.text)
        #将请求到的字符串转化为html标签
        html = etree.HTML(r.text)
        #标签定位到该字段
        nr = html.xpath('//script[@type="text/javascript"]/text()')[0].replace('\n','').replace('\t','').replace('window.__SEARCH_RESULT__ = ','')
        #将字符串抓华为json格式
        datas = json.loads(nr)['engine_search_result']
        #循环，获取字段

报错图片

完整代码

# -*- coding: utf-8 -*-
import requests
import time
import re
import csv
import json
import pandas as pd
from lxml import etree
#创建一个csv文件，设置编码格式
file = open('qcwy.csv','a+',encoding='gbk')
#写入表头
writer  =csv.writer(file)
writer.writerow(['公司','岗位','薪资','福利','工作经验','学历','城市','招聘人数','公司规模','公司方向'])
file.close()
from urllib.parse import urlencode
#页数循环，设置10页
for page in range(1,10):
    try:
        url0 = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,{}.html?'.format(page)
        #设置请求头，防止被网站识别爬虫
        headers = {
            'Connection': 'keep-alive',
            'Host': 'search.51job.com',
            'Cookie': 'guid=eafda637f951289cc3971b74087ee992; nsearch=jobarea%3D%26%7C%26ord_field%3D%26%7C%26recentSearch0%3D%26%7C%26recentSearch1%3D%26%7C%26recentSearch2%3D%26%7C%26recentSearch3%3D%26%7C%26recentSearch4%3D%26%7C%26collapse_expansion%3D; search=jobarea%7E%60000000%7C%21ord_field%7E%600%7C%21recentSearch0%7E%60000000%A1%FB%A1%FA000000%A1%FB%A1%FA0000%A1%FB%A1%FA00%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA99%A1%FB%A1%FA9%A1%FB%A1%FA99%A1%FB%A1%FA%A1%FB%A1%FA0%A1%FB%A1%FApython%A1%FB%A1%FA2%A1%FB%A1%FA1%7C%21; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22184f1556385bb4-00d9951ae6397368-7a575474-3686400-184f1556386a8d%22%2C%22first_id%22%3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%7D%2C%22identities%22%3A%22eyIkaWRlbnRpdHlfY29va2llX2lkIjoiMTg0ZjE1NTYzODViYjQtMDBkOTk1MWFlNjM5NzM2OC03YTU3NTQ3NC0zNjg2NDAwLTE4NGYxNTU2Mzg2YThkIn0%3D%22%2C%22history_login_id%22%3A%7B%22name%22%3A%22%22%2C%22value%22%3A%22%22%7D%2C%22%24device_id%22%3A%22184f1556385bb4-00d9951ae6397368-7a575474-3686400-184f1556386a8d%22%7D; ssxmod_itna=eqUxnDu7GQG=6xGq0du7t8mx4=Dgn0phxhx0yDi=TDSxGKidDqxBnWjeDQTdSdfnPh0EGY0A4rwTrGmR051vYj72oElt4B3DEx0=edIixiicDCeDIDWeDiDG4Gml4GtDpxG=Djnz/1lXxGWDmbkDWPDYxDr61KDRxi7DDydCx07DQHk3Rpw9Oo1YABDqnKD9hoDsEbfSnImfRftlEAAmtBovx0kS40OBOHszOoDUDvsg=7NKCR4KQxNdih3EBres7Gt3ZQ4fG6x=Yn45=iepNi43o9Pl0tDi=GtHjUDD; ssxmod_itna2=eqUxnDu7GQG=6xGq0du7t8mx4=Dgn0phxxnIgDi=eDlrGlxjRRieZrTMD6CrLfzOzoWadeRi/qDQ4c2TELIl/2LE3wTZ6DrdD6iaKLXdCbFAdXpdNW6Qq/nx/1lurV+lUkBVILs11ura8igqh/WvFZaIbRPFsP4EOu2F802yhjo5bloHOxc5C=BTesx5x/7mH+8BOw99p6UfQX8E7RKeAEPn=6=SQZxSWEhSDToyAPXLQPdy=3VPfS/aURROGDRe+btCd3805zduC=jm5MQtsKYUHYZWS/naO6y3Nz=Zl194CyT8duyd1CqXndH0NAPe4FvrxK=xm2x=/a0Z=tiEq/EN/==K4QHm0HEwN93/ad+nXh00b+fTS+afXe+EF00M0031m2Oue9Y33YNttfC2s9f893mnuVowUaIE7mp9fICWM=Yn1QGG3qnGR0GKA3LYIpjef8YTDG2KG2WrHiiTYieKc4Qi2iL8grkskCwvxD08DijpYD==; partner=51jobhtml5',
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36 Edg/108.0.1462.54'
        }
        #在url后拼接参数，参数固定
        params = {
            'lang': 'c',
            'postchannel': '0000',
            'workyear': '99',
            'cotype': '99',
            'degreefrom': '99',
            'jobterm': '99',
            'companysize': '99',
            'ord_field': '0',
            'dibiaoid': '0',
            'line': '',
            'welfare': '',
        }
        #拼接url
        url = url0+urlencode(params)
        print(url)
        #requests请求，设置请求时间最长为30秒，超时报错
        r = requests.get(url,headers=headers,timeout=30)
        #print(r.text)
        #将请求到的字符串转化为html标签
        html = etree.HTML(r.text)
        #标签定位到该字段
        nr = html.xpath('//script[@type="text/javascript"]/text()')[0].replace('\n','').replace('\t','').replace('window.__SEARCH_RESULT__ = ','')
        #将字符串抓华为json格式
        datas = json.loads(nr)['engine_search_result']
        #循环，获取字段
        for sjs in datas:
            #判断
            if len(sjs['attribute_text']) == 4:
                workyear = sjs['attribute_text'][1]
                education = sjs['attribute_text'][2]
                city = sjs['attribute_text'][0]
                renshu = sjs['attribute_text'][-1]
            else:
                city = sjs['attribute_text'][0]
                renshu = sjs['attribute_text'][-1]
                test = sjs['attribute_text'][1]
                #判断经验是否在test里面
                if '经验' in test:
                    workyear = test
                    education = '无'
                else:
                    education = test
                    workyear = '无'
            company_name = sjs['company_name']
            job_name = sjs['job_name']
            providesalary_text = sjs['providesalary_text'].replace('\\',"")
            jobwelf = sjs['jobwelf'].replace('\\',"")
            companysize_text = sjs['companysize_text'].replace('\\',"")
            companyind_text = sjs['companyind_text'].replace('\\',"")
            #如果为空，直接设置为无
            if not providesalary_text:
                providesalary_text = '无'
            if not jobwelf:
                jobwelf = '无'
            if not companysize_text:
                companysize_text = '无'
            if not companyind_text:
                companyind_text = '无'
            file = open('qcwy.csv', 'a+', encoding='gbk')
            writer = csv.writer(file)
            #将数据每行写入
            writer.writerow([company_name,job_name,providesalary_text,jobwelf,workyear,education,city,renshu,companysize_text,companyind_text])
            print(company_name,job_name,providesalary_text,jobwelf,workyear,education,city,renshu,companysize_text,companyind_text)
      #异常处理
    except Exception as e:
        print(e)
        time.sleep(1) 
        # break
#将csv转成excel
datas = pd.read_csv('qcwy.csv',encoding='gbk')

根据报错应该是，json格式转换的问题吧

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
gnn_explorer 2022-12-18 22:26
关注
值不是json字符串格式, 所以报错: {JSONDecodeError}Expecting value: line 1 column 13 (char 12)

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
爬虫练习中json报错 json
2022-08-14 18:35

回答 2 已采纳这问题的出现是因为你的代码25行: json_ids = requests.post(url=url, headers=headers,data=data).json() requests返回的数据
scrapy爬虫相关关于json数据的处理 json 爬虫
2018-03-14 09:42

回答 1 已采纳使用 JSON 函数需要导入 json 库：import json
python可视化数据爬虫使用案例
2024-01-23 19:14

Python是一种广泛应用于数据分析和Web爬虫的编程语言，它的易读性和丰富的库使其在数据处理领域备受青睐。本文将深入探讨Python在可视化数据爬虫方面的应用，并通过具体的使用案例进行详细解析。首先，Python中的...
Jupyter Notebook 网站爬虫 jupyter python 爬虫
2022-09-02 13:42

回答 2 已采纳比较笨的办法 import calendar import re import time import openpyxl import parsel as parsel from selenium
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
用python语言整理json格式的数据 json python 爬虫
2023-04-03 22:58

回答 3 已采纳也可以考虑正则匹配 import re import json s = ''' jsonp109({ "returnCode": "0", "returnValue": { "A":
爬虫返回的Json数据怎么玩？一篇文章搞定！
2020-06-25 11:26

痴痴痴痴痴痴。的博客 1、Json是什么JSON，全称为JavaScript Object NotationJSON是轻量级的文本数据存储和交换格式，独立于语言。（JSON使用JavaScript语法来描述数...
爬虫json报错解决方法 python 爬虫
2022-12-09 10:07

回答 1 已采纳 worldDataStr不是标准的json格式，所以用json.loads 会报错
python爬虫使用json()方法将response结果转化为JSON格式时报错 json python 爬虫
2022-02-11 13:01

回答 4 已采纳网站设计了相应的反扒策略，需要把Cookie添加到headers中，这种问题一般从headers入手，有的限制User-Agent必须有，有的限制Cookie headers = { 'Cooki
Python爬虫错误：json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) json python 有问必答爬虫
2022-02-22 13:40

回答 5 已采纳 async+await方法的url多了个斜杠，去掉就行了。要不多的那个斜杠接口出错返回的是html代码了，调用json()出错了，内容不是json字符串测试代码如下 import json im
Python高阶---数据分析和网络爬虫
2022-09-20 23:48

肥大毛的博客 Python高阶---数据分析和网络爬虫
python中如何提取JSON格式花括号中的jpg json 爬虫
2022-10-20 22:08

回答 1 已采纳 import json import requests from urllib.request import urlretrieve url = 'https://wlop.huotan.com/a
爬虫+数据分析实战项目（基于python）.zip
2024-01-12 16:47

Python作为一种强大的编程语言，因其简洁易读的语法和丰富的第三方库，成为了数据科学领域中爬虫和数据分析的首选工具。在本项目中，我们将深入探讨如何利用Python进行网页数据抓取、数据清洗、数据处理和可视化，以...
nyt_api_python:从《纽约时报》的API中提取文章数据
2021-03-25 19:25

5. **数据解析**：API返回的数据通常是JSON格式，Python有内置的json库可以方便地解析这些数据，将其转换为Python字典或列表结构。 6. **数据处理**：解析后的数据可以进行各种分析和操作，如筛选特定文章、统计...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 12月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月18日

悬赏问题

¥15 Fluent udf 编写问题
¥15 求合并两个字节流VB6代码
¥15 Pyqt 如何正确的关掉Qthread，并且释放其中的锁？
¥30 网站服务器通过node.js部署了一个项目！前端访问失败
¥15 WPS访问权限不足怎么解决
¥15 java幂等控制问题
¥15 海湾GST-DJ-N500
¥15 氧化掩蔽层与注入条件关系
¥15 Django DRF 如何反序列化得到Python对象类型数据
¥15 多数据源与Hystrix的冲突

jupyter中的爬虫中的json的数据转换

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新