pycharm 爬虫生成空列表

import requests
import logging
logging.captureWarnings(True)
from lxml import etree
import pandas as pd

网址 = "https://www.jkl.com.cn/shop.aspx"
UA伪装 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
响应数据 = requests.get(url=网址,verify=False,headers=UA伪装).content
解析=etree.HTML(响应数据)
城区 = 解析.xpath('//div[@class="infoLis"]//@href ')
for 区 in 城区:
网址2 ='https://www.jkl.com.cn/cn/' + 区
响应数据1=requests.get(url=网址2,verify=False,headers=UA伪装).text
解析1 = etree.HTML(响应数据1)
店铺名称 = 解析1.xpath('//span[@class="con01"]/text()')
print(店铺名称)
为什么打印会生成空列表?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
星川皆无恙大数据领域优质创作者 2023-11-29 20:49
关注
在你的代码中，你首先从主页获取所有城区的链接，然后循环访问这些链接，提取店铺名称。在这个过程中，可能存在一些原因导致打印生成空列表的问题。

以下是一些可能的原因和建议的解决方法：

XPath选择器错误：检查解析1.xpath('//span[@class="con01"]/text()') 是否确实匹配到了期望的元素。你可以通过在浏览器中检查网页的 HTML 结构来验证你的 XPath 选择器是否正确。

网页结构动态加载：如果网页使用 JavaScript 进行动态加载，requests.get 可能无法获取到完整的页面内容。你可以考虑使用模拟浏览器行为的工具，比如 Selenium。

请求头问题：有些网站可能对请求头进行了检查，你可以尝试更改请求头，使其更接近真实浏览器请求。例如，你可以使用浏览器开发者工具查看真实请求的请求头。

网络问题：确保你的网络连接正常，而且能够正常访问这些网站。有时候，网络问题也可能导致请求失败。

异常处理：在请求和解析的过程中，添加一些异常处理机制，以便捕获可能发生的异常，例如请求失败、解析失败等。

下面是一个简单的例子，演示如何添加异常处理：

i

mport requests from lxml import etree 网址 = "https://www.jkl.com.cn/shop.aspx" UA伪装 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'} 响应数据 = requests.get(url=网址, verify=False, headers=UA伪装).content 解析 = etree.HTML(响应数据) 城区 = 解析.xpath('//div[@class="infoLis"]//@href ') for 区 in 城区: 网址2 = 'https://www.jkl.com.cn/cn/' + 区 try: 响应数据1 = requests.get(url=网址2, verify=False, headers=UA伪装).text 解析1 = etree.HTML(响应数据1) 店铺名称 = 解析1.xpath('//span[@class="con01"]/text()') print(店铺名称) except Exception as e: print(f"访问 {网址2} 时发生异常：{e}")

如果上面都没有解决问题，可以通过添加异常处理，你可以查看是否有任何异常信息，从而更好地定位问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pycharm爬虫生成HTML文件时里面内容中文乱码 pycharm python 爬虫
2022-11-14 00:35

回答 2 已采纳保存时用utf-8编码with open("mybaiodu.html",mode = "w",encoding="utf-8") as f
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-30 00:11

回答 4 已采纳对你有帮助的话，建议采纳。
pycharm下爬虫不输出结果不报错 pycharm python
2021-06-30 16:58

回答 4 已采纳可能原因如下：doc内容为空，或者items内容为空，所以for循环没输出。
爬虫小白第一课、从安装python到写出第一个爬虫程序、Pycharm安装详解
2021-04-22 22:34

呆塔的博客 python爬虫现在挺火，一方面全民学python热，下到小学生上到60后的地产大佬潘石屹都在学python，另一方面也的确是数据时代，或是课程需要或是工作需要，谁都没准会有个爬数据的需求。地产大佬潘石屹在微博晒学...
pycharm爬取的内容显示空白 python
2021-04-13 21:35

回答 2 已采纳查看网页源代码可以发现这是动态加载的，通过这样根本爬取不到信息，可以考虑使用selenium模块试试
关于pycharm桌面生成文件夹的问题 pycharm python 有问必答
2021-09-03 09:47

回答 3 已采纳这个存放一些运行信息，只要你用pycharm打开一个文件夹（项目），都会生成这个文件夹，可以删除的，不过后续还用pycharm打开一个文件夹（项目），它会自动创建
pycharm网络爬虫出现错误 python
2021-12-25 23:51

回答 1 已采纳代码都爆红了，爬taobao的文章那么多，可以去参考一下
PyCharm 这40个使用技巧真棒
2021-09-29 17:05

我爱Python数据挖掘的博客这里我提前准备了几种编程语言的 Hello World ，效果如下：你可以通过右键调出此窗口 7. 使用函数时，快速查看该函数有哪些参数快捷键：⌘ + P 自动纠正与自动补全快捷键：⌘ + ⇧ + ↩，自动结束代码，行末自动...
当python自动生成列表时pycharm显示错误 pycharm python
2023-01-18 12:29

回答 2 已采纳因为你的变量是动态定义的，IDE当然会认为你变量没有定义如果你非要这样动态定义变量，那print也改成动态执行呗exec('print(list_lisi,list_zhangsan,list_wan
pycharm添加包时提示加载包列表错误 pycharm
2021-09-06 19:43

回答 1 已采纳直接在pycharm的命令行用pip install selenium安装pycharm自带的这个不是很好用,好多人都说装不上有帮助望采纳
pycharm运行爬虫发生urllib3不知名错误 python
2022-05-08 21:10

回答 2 已采纳已解决，requests-html库不兼容问题，我也不知道它跟那个不兼容，只有把所有库删了我有这些库，你们有想法的可以自己去试试看，找找那个库跟requests-html不兼容appdirs==1
Python爬虫入门教程（详细教程篇），爬虫Python入门
2024-08-20 14:41

Python_trys的博客前言Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言，它由 Guido van Rossum 于 1989 年底发明，第一个公开发行版发行于 1991 年。自面世以后，Python 深受广大开发者的喜迎，在网站开发，网络爬虫...
用PyCharm进行QT编程出现路径错误 pycharm python qt 有问必答
2022-06-12 17:48

回答 2 已采纳出错是说找不到 'E:/桌面文件/main.py' 文件,检查main.py是在E:/桌面文件/ 目录中吗.实际的文件名是 main.py 吗? 是不是写错了另外文件路径最好别用中文, "桌面文件
Python爬虫技术及PyQt5界面编程实现12306火车票查询
2021-12-21 18:33

夏至xz的博客设计保存后会生成一个后缀位ui的文件，将这个文件放进项目中，此时我们还不能直接运行这个文件，也看不到界面，此时在PyCharm中做如下配置：程序：python.exe所在的目录实参：-m PyQt5.uic.pyuic$FileName$ -o ...
爬虫python
2023-03-08 22:35

qq_繁华的博客爬虫python
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

悬赏问题

¥15 kafka无法正常启动（只启动了一瞬间会然后挂了）
¥15 开发一个类似百度网盘的软件，在主页文件列表点击进入文件夹，在文件夹里面还有文件夹，代码该怎么写？
¥30 使用matlab将观测点聚合成多条目标轨迹
¥15 Workbench中材料库无法更新，如何解决？
¥20 如何推断此服务器配置
¥15 关于github的项目怎么在pycharm上面运行
¥15 内存地址视频流转RTMP
¥100 有偿，谁有移远的EC200S固件和最新的Qflsh工具。
¥15 有没有整苹果智能分拣线上图像数据
¥20 有没有人会这个东西的

pycharm 爬虫生成空列表

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新