爬虫爬取该网站时返回空列表

import requests
from bs4 import BeautifulSoup
import csv

def getHtml(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "fail"
    
def getDATA(ulist,html):
    soup=BeautifulSoup(html,'html.parser')
    table=soup.find_all('tr')
    for row in table:
        cols=[col.text for col in row.find_all('td')]
        if len(cols)==0 or not cols[0].isdigit():
            continue
        ulist.append(cols)

def main():
    unifo=[]
    url='https://www.phb123.com/hangye/qiche/index_1.html'
    html=getHtml(url)
    getDATA(unifo,html)
    print(html)
    print('*'*20)
    print(unifo)
main()

有大佬能帮忙解决一下吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-06-13 18:04
关注
第一列不是包含了换行和空白，导致是否数字判断失败，要去掉空白就可以了，加下面加粗的内容，帮助到你可以点击采纳吗，谢谢~~

def getDATA(ulist,html):
    soup=BeautifulSoup(html,'html.parser')
    table=soup.find_all('tr')
    for row in table:
        cols=[col.text for col in row.find_all('td')]
        if len(cols)==0 or not cols[0].strip().isdigit():
           continue
        ulist.append(cols)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决
2020-11-29 14:04

weixin_39918043的博客其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图红框内容的xpath如下：from lxml import etree...
python爬虫爬取网页表格数据
2020-09-20 17:53

首先初始化一个空列表`urli`用于存储表格数据，然后设定要爬取的网页URL。通过调用`check_link(url)`获取网页内容，`get_contents(urli, rs)`解析并收集表格数据，最后`save_contents(urli)`将数据保存到CSV文件。 ...
python爬虫爬取网站
2024-01-30 15:11

啊丢_的博客爬虫爬取豆瓣网站
python爬虫爬取小说网站
2025-04-30 19:54

aspxiy的博客利用python爬取某小说网站，主要爬取小说名字，作者，类别，将其保存为三元组形式：（xxx, xxx, xxx）并将其保存至excel表格中。本文从爬取目的到爬取的各步骤都尽量详细的去复现。
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
(不看后悔系列三)python网络爬虫爬取网络视频
2025-03-03 11:50

不正经的程序员的博客同样，我们先来看效果图前面的文章发布后，很多人反应看...该网站不涉及任何加密，能够方便快捷地提取我们所需的。但是在分析该网站之前你还是要对什么是m3u8,什么是ts等进行了解。如果你还不了解，请看这里m3u8，ts。
Python用xpath爬取数据返回空列表解决
2018-12-08 16:20

SL_World的博客笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段 ①tbody问题 URL:2018AAAI的第一篇论文元数据页面页面如下：笔者通过谷歌浏览器选取上图红框内容的xpath如下...
Python爬虫返还内容为空列表
2022-11-06 13:41

m0_73892503的博客我发现我的爬虫爬取的内容是很多个空列表，并且因此卡在这里无法运作。经过查询资料我得知，像是新闻，资讯这种动态更新的网址，用普通的检查获取源代码的方法，是无法获取到你想要获取的内容的。解决...
python面向对象多线程爬虫爬取搜狐页面的实例代码
2020-09-20 10:34

`run`方法中，我们会不断从队列中获取URL并执行爬取任务，直到队列为空且所有爬虫线程都处于空闲状态。 4. **主程序逻辑**：在`main`函数中，我们创建一个`Queue`对象来存放待爬取的URL，并启动多个`SpiderThread...
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析
2023-09-26 12:04

jojo来根易安的博客本次程序只爬取了豆瓣top250电影的...在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起请求，从而获取电影详情页的数据并进行解析。
没有解决我的问题, 去提问

爬虫爬取该网站时返回空列表

3条回答 默认 最新

3条回答默认最新