python爬虫，当正则表达式无法匹配，怎么输出空字符

用python批量爬取网页时，中间有几个网页已经失效，或者有些网页内部格式发生变化，导致正则表达式无法匹配，如图：

就会报这种错误：

网页格式的变化是这样的：
这是有内容的

这是没有内容的

我能想到的办法就是希望当正则匹配不到内容时输出空字符，想在现在代码的基础上进行修改，但是不知道怎么改了，希望能得到帮助，以下是我的代码，非常感谢！

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt


def main():
    baseurl = "http://www.rcwjx.com"
    datalist = getData(baseurl)
    savepath = "嘉兴人才网.xls"
    saveData(datalist, savepath)


findJob = re.compile(r'<span>(.*?)</span>')
findSalary = re.compile(r'<span class="orange font-size-base pay-base-info">\r\n(.*?)</span>',re.S)
findCompany = re.compile(r'class=".*">(.*?)</a>')
findGzdd = re.compile(r'<p><span class="label">工作地点：</span>(.*?)</p>')
findZprs = re.compile(r'<p><span class="label">招聘人数：</span>(.*?)</p>')
findXbyq = re.compile(r'<p><span class="label">性别要求：</span>(.*?)</p>')
findZwlx = re.compile(r'<p><span class="label">职位类型：</span>(.*?)</p>')
findZpbm = re.compile(r'<p><span class="label">招聘部门：</span>(.*?)</p>')
findNlyq = re.compile(r'<p><span class="label">年龄要求：</span>(.*?)</p>')
findGzjy = re.compile(r'<p><span class="label">工作经验：</span>(.*?)</p>')
findXlyq = re.compile(r'<p><span class="label">学历要求：</span>(.*?)</p>')
findZsqk = re.compile(r'<p><span class="label">住宿情况：</span>(.*?)</p>')
findZwms = re.compile('<div class="ItemContent JobRequire" id="ctl00_ContentPlaceHolder1_requirement">(.*?)，谢谢！', re.S)
findLxr = re.compile(r'人：</span>\r\n                                                (.*?)\r\n                                                ')
findQydz = re.compile(r'企业地址：</span>\r\n                                                (.*?)\r\n                                                ')


def getData(baseurl):
    datalist = []
 name = ["/job/7178980.html"]
    for i in name:
        url = baseurl + i
        html = askURL(url)

        soup = BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div', id="ShowJobContent"):
            data = []
            item = str(item)
            # print(item)
            Job = re.findall(findJob, item)[0]
            data.append(Job)
            Salary = re.findall(findSalary, item)[0]
            data.append(Salary.strip())
            Company = re.findall(findCompany, item)[0]
            data.append(Company)
            Gzdd = re.findall(findGzdd, item)[0]
            data.append(Gzdd)
            Zprs = re.findall(findZprs, item)[0]
            data.append(Zprs)
            Xbyq = re.findall(findXbyq, item)[0]
            data.append(Xbyq)
            Zwlx = re.findall(findZwlx, item)[0]
            data.append(Zwlx)
            Zpbm = re.findall(findZpbm, item)[0]
            if len(Zpbm) == 0:
                data.append(" ")
            else:
                data.append(Zpbm)
            Nlyq = re.findall(findNlyq, item)[0]
            data.append(Nlyq)
            Gzjy = re.findall(findGzjy, item)[0]
            data.append(Gzjy)
            Xlyq = re.findall(findXlyq, item)[0]
            data.append(Xlyq)
            Zsqk = re.findall(findZsqk, item)[0]
            data.append(Zsqk)
            Zwms = re.findall(findZwms, item)[0]
            Zwms = re.sub('<br(\s+)?/>(\s+)?', " ", Zwms)
            Zwms = re.sub('\xa0', " ", Zwms)
            Zwms = re.sub('联系我时，请说是在嘉兴人才网上看到的', "联系我时，请说是在嘉兴人才网上看到的，谢谢！", Zwms)
            data.append(Zwms)
            Lxr = re.findall(findLxr, item)[0]
            data.append(Lxr)
            Qydz = re.findall(findQydz, item)[0]
            data.append(Qydz)

            print(1, Lxr, Qydz)
            datalist.append(data)
    print(datalist)
    return datalist


def askURL(url):
    head = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome/92.0.4515.159Safari/537.36"
    }
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        # html = response.read().decode("utf-8")
        html = response.read().decode('GBK')
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


def saveData(datalist,savepath):
    print("save...")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet('嘉兴人才网',cell_overwrite_ok=True)
    col = ("岗位", "薪资", "公司", "工作地点", "招聘人数", "性别要求", "职位类型", "招聘部门", "年龄要求", "工作经验", "学历要求", "住宿情况", "职位描述", "联系人", "企业地址")
    for i in range(0, 15):
        sheet.write(0, i, col[i])
    for i in range(0, 2000):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0, 15):
            sheet.write(i+1, j, data[j])

    book.save('嘉兴人才网.xls')


if __name__ == "__main__":
    main()
    print("爬取完毕！")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Pliosauroidea 2021-09-01 16:23
关注
使用try except环绕即可

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python正则表达式匹配电话 python 正则表达式爬虫
2021-09-13 15:23

回答 1 已采纳 import pyperclip text = str(pyperclip.paste()) # 将最近一次复制的内容转换为字符串 import re regex = re.compile('(
python re正则表达式，怎么匹配一段字符中间的部分，已知头尾 python 正则表达式
2019-03-27 17:29

回答 1 已采纳 ``` re.compile(r'.*.*').findall("12123") ```
关于python爬虫中beautifulsoup4与正则表达式的运用问题！ python
2020-06-21 21:50

回答 1 已采纳 soup.find_all(href=re.compile("view")) soup.查找所有（href属性里面含有view关键字）的结果有时间看看RE模块的用法
python爬虫-正则表达式
2024-04-21 13:07

2401_83817171的博客 import re pattern = ‘hello_\w+’ # 表达式字符串 string = ‘Hello_world’ # 要匹配的字符串 match = re.match(pattern, string, re.I) # 匹配字符串，不区分大小写 print(match) # 输出匹配结果 string = ‘abc...
关于b站视频排行榜各视频数据的正则表达式 python 正则表达式爬虫
2021-11-30 09:56

回答 2 已采纳可以直接用正则，不需要去解析正则代码如下 import re import requests headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0;
尝试python爬虫时出现错误，求解答！ python 有问必答正则表达式爬虫
2021-11-19 23:19

回答 1 已采纳 re.findall(findChara, str(item)) 没有匹配到，返回的是空列表[] print(str(item)) 输出没有<h3></h3>标签你题目
python 网络爬虫怎么保存下载到本地硬盘 python 正则表达式爬虫
2022-01-04 22:56

回答 1 已采纳 #导入包 import requests import re import os #如果当前项目下有名为美女图片的文件夹，则不创建，么有则创建 if not os.path.exists('美女图片
Python爬虫运用正则表达式的方法和优缺点
2020-10-16 12:39

当Python爬虫程序获取到网页内容后，会将HTML文档转换为字符串格式，然后利用正则表达式来匹配和提取信息。下面的步骤是具体如何运用正则表达式进行爬虫数据提取的： 1. 首先，通过requests模块发起网络请求，获取...
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
我的正则表达式有什么问题吗，为什么没有报错也返回不了值 html python 爬虫
2023-03-23 16:51

回答 2 已采纳 name=res.xpath('//*[@class="co_content2"]//@href') for i in name: print(i)
python爬取软科排名,匹配不到数据 python 数据挖掘爬虫
2022-03-24 21:35

回答 1 已采纳我这里是可以正常运行的
Python爬虫之正则表达式基本用法实例分析
2020-12-25 11:47

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：一、简介 正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常...
Python爬虫之正则表达式
2022-03-10 15:21

姜小孩.的博客 Python正则表达式（爬虫学习内容之一
Python爬虫基础之正则表达式
2023-08-27 16:51

Orion Guan's 山月润无声的博客所谓的正则表达式其实就是一些特殊字符规则组合。通过这些字符规则组合开发者可以检索并替换出一些符合这种规则的字符串文本数据。
Python爬虫系列——正则表达式
2023-06-10 20:10

热爱码码的泽的博客努力学习，拿下Py~正则表达式是由一些具有特殊含义的字符组成的字符串，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。python中，re库拥有全部正则表达式的功能。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月1日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

python爬虫，当正则表达式无法匹配，怎么输出空字符

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新