m0_51953984 2021-06-13 17:01 采纳率: 100%
浏览 363
已采纳

爬虫爬取该网站时返回空列表

import requests
from bs4 import BeautifulSoup
import csv

def getHtml(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "fail"
    
def getDATA(ulist,html):
    soup=BeautifulSoup(html,'html.parser')
    table=soup.find_all('tr')
    for row in table:
        cols=[col.text for col in row.find_all('td')]
        if len(cols)==0 or not cols[0].isdigit():
            continue
        ulist.append(cols)

def main():
    unifo=[]
    url='https://www.phb123.com/hangye/qiche/index_1.html'
    html=getHtml(url)
    getDATA(unifo,html)
    print(html)
    print('*'*20)
    print(unifo)
main()

有大佬能帮忙解决一下吗?

  • 写回答

3条回答 默认 最新

  • CSDN专家-showbo 2021-06-13 18:04
    关注

    第一列不是包含了换行和空白,导致是否数字判断失败,要去掉空白就可以了,加下面加粗的内容,帮助到你可以点击采纳吗,谢谢~~

    def getDATA(ulist,html):
        soup=BeautifulSoup(html,'html.parser')
        table=soup.find_all('tr')
        for row in table:
            cols=[col.text for col in row.find_all('td')]
            if len(cols)==0 or not cols[0].strip().isdigit():
               continue
            ulist.append(cols)

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥15 stable diffusion
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件