python网络爬虫遇到空值如何处理

爬取58同城招聘信息是xpath遇到空值。无法继续爬取。

import requests  #导入requests库
from lxml import etree#导入lxml库
import csv#输出文件类型
import time#时间函数

def spider():
    headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36'}#定义头部
    pre_url = 'https://hc.58.com/job/pn'#构造URL
    for x in range(1,2):#使用for循环构造前几页URL地址并GET请求
    html=requests.get(pre_url+str(x),headers=headers)
    time.sleep(2)#休眠时间
    selector = etree.HTML(html.text)#初始化etree
    job_list = selector.xpath("//*[@id='list_con']/li")#获取工作列表
    for job in job_list:
        dizhi = job.xpath("div[1]/div[1]/a/span[1]/text()")[0]#公司地址
        gongsi = job.xpath("div[2]/div[1]/a/text()")[0]#公司名称
        gangwei = job.xpath("div[2]/p/span[1]/text()")[0]#所需岗位
        leixing = job.xpath("div[1]/div[1]/a/span[2]/text()")[0]#人员类型
        xueli = job.xpath("div[2]/p/span[2]/text()")[0]#员工学历
        jingyan = job.xpath("div[2]/p/span[3]/text()")[0]#员工经验
        gongzi = job.xpath("div[1]/p/text()")[0]#员工工资
        daiyu = job.xpath("div[1]/div[2]/text()")[0]#福利待遇
         item = [dizhi, gongsi, gangwei,leixing, xueli, jingyan, gongzi,daiyu  ] #所要爬取的数据
        data_writer(item)#保存数据
        print('正在抓取', dizhi)

def data_writer(item):
    with open('581河池.csv', 'a',encoding='utf-8',newline='') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(item)

if  __name__ == '__main__':#主函数
    spider()

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-07-07 09:28
关注
一个办法是用len首先对dishi gongsi等判断，是否是none或者长度是否>=1，然后再调用。
一个办法是遇到异常直接忽略，继续执行
代码如下：

for...: try: #你现有的代码 except OSError: pass continue
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
有谁能够解答吗 Python爬虫 XPath python 爬虫
2021-11-21 00:19

回答 2 已采纳你需要先确定返回的响应内容中有没有这些分类信息，有的话则是xpath没写对。没有分类信息的话，需要在请求时构造和浏览器相同的请求头信息。爬虫逆向社区-爬虫逆向论坛-
Python爬虫返回空值的问题
2020-10-31 19:18

起个名字好难呢的博客个人在爬虫时遇到的问题，在此记录一下看看请求时携带 cookie 了没在这里插入图片描述具体cookie，根据具体网页分析 import requests cookies = {…} headers = {…} resp = requests.get(url=url, headers=...
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫，我用bs4的find方法为什么反回的是空值？怎么解决（已解决）？ python
2019-08-18 15:16

回答 1 已采纳 find找到空值，就证明没找到，你可以先打印request返回的内容，确认确实返回了内容再然后就是你的find查找标签，可能标签不对，先找上一级标签，print出来看行不行一级一级往下呗。
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
python爬虫出来空值_pandas | DataFrame基础运算以及空值填充
2020-12-09 10:41

weixin_39626211的博客今天是pandas数据处理专题的第四篇文章，我们一起来聊聊DataFrame的基本运算。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看...
前程无忧网址数据练习抓取，为什么会返回空值(语言-python) python 有问必答爬虫
2021-12-05 21:39

回答 1 已采纳你输出下str_data 看看源代码中有你需要爬取的内容吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。
python xpath解析报错，etree.HTML python 有问必答
2021-05-17 19:37

回答 3 已采纳经测试在vscode终端代码运行正常，尝试升级lxml版本，代码中还有个小问题，在img_name=li.xpath('./a/img/@alt')[0]+'jpg'的jpg前面要加个点，即.jpg，
xpath返回空值的问题，希望有人能解答 python 爬虫
2021-11-03 16:05

回答 3 已采纳 url方便发一下？本地xpath试试
数据处理Pandas-空值处理方案-Python实例源码.zip
2022-12-13 19:24

数据处理Pandas-空值处理方案-Python实例源码.zip
POST访问服务器遇到问题 flask python 爬虫
2022-08-09 20:36

回答 2 已采纳在Flask端显示变量N是空值 n = urllib.parse.quote("白云区")data = nhtml = urllib.request.urlopen(url,data=data.enc
python爬虫xpath出来空值_Python爬虫之数据解析（XPath）
2021-03-06 16:34

和风木雨的博客注意位置顺序是从1开始的，和python不一样！ /bookstore/book[last()]：选取属于 bookstore 子元素的最后一个 book 元素。 /bookstore/book[last()-1]：选取属于 bookstore 子元素的倒数第二个 book 元素。 /...
【Python】爬虫li中部分有空值,列表长度补齐
2022-04-19 13:56

Yigichul的博客爬虫li中部分有空值,列表长度补齐爬虫li中部分有空值，结果list缺失数值，记录的字段错位。解决方案：提前将值补齐，然后进行规则提取。 html = requests.get(row['url'],headers=headers) ...
数据处理Pandas-空值，0值等缺失值检测-Python实例源码.zip
2022-12-13 19:24

数据处理Pandas-空值，0值等缺失值检测-Python实例源码.zip
python爬虫xpath出来空值,Python爬虫没有找到特定的Xpath
2020-12-09 10:41

墨然隳绶的博客 so I know i can find this number with this xpath, but when trying to run a python scrpit to find and save the number it says it cannot find it. try: views = browser.find_element_by_xpath("//div[@...
Python 空值与非空值
2021-11-16 16:17

Python热爱者的博客 1.任何值为0的值都是false,任何非0的值都是true ...小编创建了一个Python学习交流QQ群：725638078 寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！ ''' if '': print ("yes")
python爬虫面试题集锦及答案
2022-09-18 19:16

AudiA6LV6的博客 IO密集型代码（文件处理、网络爬虫等），多线程能够有效提升效率（单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

python网络爬虫遇到空值如何处理

7条回答 默认 最新

悬赏问题

7条回答默认最新