jupyter爬虫无法使用正则表达过滤信息

昨天运行的时候是没问题的今天就只显示[ ]
上面代码也全部运行成功
请问这是遇到了反爬嘛

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-03-04 15:21
关注
SpongeBob0101 下午好🌅🌅🌅
本答案参考ChatGPT-3.5

遇到无法使用正则表达式过滤信息的问题，可能是由于以下原因导致的：

爬取的内容有变化：网页的内容可能在你运行爬虫之后发生了变化，导致正则表达式无法匹配到相应的信息。

解决方案：

可以尝试重新访问网页，查看是否存在内容变化，根据变化修改正则表达式的模式。

正则表达式模式错误：你提供的正则表达式可能存在错误，导致无法正确匹配到信息。

解决方案：

检查正则表达式的语法是否正确，可以使用在线正则表达式测试工具进行验证，如正则表达式101（https://regex101.com/）。
确保正则表达式模式与目标信息的格式匹配。

爬取被网站反爬虫机制拦截：可能出现爬取被网站的反爬虫机制拦截，导致无法获取到目标信息。

解决方案：

尝试使用其他方式进行反爬虫处理，如设置 User-Agent、使用代理IP等。
如果频繁访问导致被封IP，可以采用延时访问或者切换多个IP进行访问。

数据获取失败：你所爬取的数据可能没有获取成功，导致无法进行正则匹配。

解决方案：

确保成功获取到需要进行正则匹配的数据。
可以使用 print() 函数或者其他调试方法查看变量的值，检查获取的数据是否正确。

综上所述，根据问题的描述，你可以尝试以下解决方案：

检查爬取的网页是否有更新或者出现内容变化，根据变化修改正则表达式。
验证正则表达式模式的正确性。
考虑可能被反爬虫机制拦截的情况，设置 User-Agent、使用代理IP等方法进行反爬虫处理。
确保成功获取到需要进行正则匹配的数据。

如果问题依然存在，请提供更多的详细信息（如具体的网页内容、正则表达式模式、其他可能导致问题的因素），以便更好地帮助你解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
Jupyter Notebook 网站爬虫 jupyter python 爬虫
2022-09-02 13:42

回答 2 已采纳比较笨的办法 import calendar import re import time import openpyxl import parsel as parsel from selenium
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
Python爬虫（Scrapy、Selenium、BeautifulSoup、Jupyter的使用）
2024-08-20 23:06

赵 XiaoQin的博客 urllib无法处理这种情况，所以一般不建议使用 urllib。 1.3 使用selenium模拟浏览器。 1.3.1 下载浏览器驱动(以Edge为例) 1. 查看自己的浏览器版本（点击浏览器右上角的三个点->设置->关于 Microsoft Edge） 2. ...
jupyter爬虫问题(希望有详细注释) jupyter python 有问必答
2021-11-24 10:12

回答 1 已采纳 jupyter notebook只是一个IDE编辑器，代码都是一样的，豆瓣评论数据的爬虫网上很多教程，直接拿来用就行了
python 爬虫正则表达式打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
Python爬虫正则表达式 python
2022-07-22 09:38

回答 3 已采纳
Jupyter noteook爬取猫眼top部电影（正则表达式）
2021-12-24 10:24

从不掉发的博客在爬取网页信息时通常会找出在元素中的逻辑，再应用正则表达式进行过滤。例如，我们要获取主演信息（徐峥，周一围，王传君），定位到主演：徐峥，周一围，王传君 ,构造正则表达式，c = re.findall(’.?主演：(.?)...
使用正则表达式提取文本数据，正则表达式如何写 python 有问必答正则表达式爬虫
2021-10-25 18:26

回答 2 已采纳 regex = r"('gender':\s*{[^}]+})|('glasses':\s*{[^}]+})|('emotion':.+.jpg')" 不清楚是否你每个文件都是类似的，如果不行，再
使用正则表达式提取数据，存在一些问题 python 正则表达式爬虫
2021-10-25 21:44

回答 2 已采纳参考一下这个写文章-CSDN博客 https://editor.csd
python爬虫正则表达式 python 有问必答爬虫
2022-06-04 14:28

回答 3 已采纳可以这样写，示例： import pandas as pd df=pd.DataFrame({'number':[1,2,3,4],'value':['123人','456万人','789万','']
Python天气预报采集器实现代码(网页爬虫)
2020-12-25 10:46

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下: def getHtml(url): page = urllib.urlopen...
关于#python网络爬虫, 正则表达式 , html规则#的问题： python 正则表达式爬虫
2022-01-04 18:47

回答 2 已采纳 #导入包 import requests import re #请求网址 url = "https://www.vmgirls.com/18236.html" headers = {'User-A
php正则过滤手机输入法表情,用JS过滤Emoji表情的输入
2021-04-13 12:26

weixin_39898248的博客本文为原创，转载请注明出处：cnzt 文章：cnzt-p在前端页面开发过程中，总会碰到不允许输入框输入emoji表情的需求，我的思路是通过编码用正则匹配表情，然后将其替换为空字符创。但是问题也是显而易见的，完整的编码...
网络爬虫.论文答辩PPT
2022-05-30 15:48

6. **数据提取与清洗**：使用正则表达式、BeautifulSoup等工具从HTML文档中提取所需信息，然后进行数据清洗，去除噪声，如广告和无用信息。Pandas库在数据处理和分析中起到关键作用，它可以方便地进行数据清洗、转换...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月4日

悬赏问题

¥20 搭建三相栅极电路后高侧浮动地VS存在电容特性
¥20 云卓h12pro 数传问题
¥20 请问有人知道怎么用工艺库里面的sdb文件通过virtuoso导出来library里面每个cell的symbol吗？
¥20 海思 nnie 编译报错
¥50 决策面并仿真，要求有仿真结果图
¥15 springboot接入微信支付SDK
¥50 大区域的遥感影像匹配怎么做啊
¥15 求解答：pytorch跑yolov8神经网络受挫
¥20 Js代码报错问题不知道怎么解决
¥15 gojs 点击按钮node的position位置进行改变，再次点击回到原来的位置

jupyter爬虫无法使用正则表达过滤信息

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新