爬虫问题：我的html有啥问题，为什么43行的循环进不去（江苏省就是一个单列，列名城市，13个江苏城市）？

# -*-coding = utf-8 -*-
# @Time : 2021/7/14 0014 下午 5:22
# @Author : TANQ
# @File ： .py
# @Software : PyCharm
from bs4 import BeautifulSoup
import re
import urllib.request
import urllib.error
import xlwt
import sqlite3
import pandas as pd
import pandas as pd

df = pd.read_excel('./江苏省.xlsx')
data = []


def main():
    baseurl = "https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_aladin_banner&city=%E6%B1%9F%E8%8B%8F-"
    datalist = getData(baseurl)
    # print(datalist)
    savepath = ".\\江苏省.xlsx"
   # saveDate(datalist, savepath)

findsure = re.compile(
    r'<p class="ProvinceSummary_1-1-309_F8LjRz ProvinceSummary_1-1-309_1RW2uk ProvinceSummary_1-1-309_pBq9kt">(.*)</p>')


def getData(baseurl):
    datalist = []
    for i in range(0, 1):
        url = baseurl + urllib.parse.quote(df['城市'][i])
        html = askURL(url)
        soup = BeautifulSoup(html, "html.parser")
        # print("-" * 100)
        # print(url)
        # print("-" * 100)

        # print("-" * 100)
        # print(soup)
        # print("-" * 100)
        for item in soup.find_all('div', class_="item"):

            data = []
            data2 = []
            item = str(item)

            sure = re.findall(findsure, item)[0]

            data.append(sure)

            datalist.append(data)

    return datalist



def askURL(url):

    head = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89 Safari / 537.36"}
    request = urllib.request.Request(url, headers=head)
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    return html


def saveDate(datalist,savepath):
    print("saving....")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet('江苏省',cell_overwrite_ok=True)
    col = ("现有确诊")
    print(0)
    for i in range(0,2):
        sheet.write(0,i,col[i])
    for i in range(0,990):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(0,2):
            sheet.write(i+1,j,data[j])
    book.save('江苏省.xlsx')
if __name__ == "__main__":
    main()#-12

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python收藏家 2021-07-30 17:00
关注
打印看看for循环里面item的值

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求解决关于python爬虫问题，进不去循环？ python 有问必答
2021-07-07 15:46

回答 2 已采纳估计是soup.find_all('div',class_='imgbox')没有返回值。从这几个方面排查修改：检查所写节点是否正确，根据页面代码进行修改; html应该是文本格式，即在askUrl中
关于#python#的问题：我想知道这段python爬虫代码有什么问题，为什么爬取不到我想要的信息呀代码如下： python 开发语言爬虫
2023-02-16 10:59

回答 3 已采纳。。我试了一下，确实在构造infos时，XPATH没问题，但是infos没有值这里看到protected Attributes 了吗，说明哔哩哔哩还是有反爬机制的。百度一下~https://ask
我的正则表达式有什么问题吗，为什么没有报错也返回不了值 html python 爬虫
2023-03-23 16:51

回答 2 已采纳 name=res.xpath('//*[@class="co_content2"]//@href') for i in name: print(i)
Python3，爬虫有多简单，一个库，一行代码，就OK，你确定不来试试？
2022-11-03 05:00

Carl_奕然的博客如果早知道这个库，我何必写爬虫框架呢。
关于#爬虫#的问题：爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页(语言-python) python 爬虫
2023-03-08 20:02

回答 1 已采纳回答：你可以把你的脚本贴一下，这个网页结构还是比较清晰的，可以用beautifulsoup比较容易获取到内容
python爬虫B站评论数，为什么有一个数据爬不下来 python 有问必答爬虫
2021-11-06 10:39

回答 2 已采纳你用request的话，要看network的响应内容，不是element的。如图
关于#python#的问题：爬虫怎么爬取vue的数据，找不到url连接，懂爬虫给我分析一下 python 爬虫
2023-02-19 14:54

回答 1 已采纳 Vue.js 是一个前端框架，常用于构建单页应用程序（SPA）和动态网页。因此，Vue.js 的数据通常是由前端通过异步请求获取并展示的，而不是像传统的多页应用程序一样，由服务器直接渲染并返回 HTM
Python爬虫：为什么你爬取不到网页数据
2022-08-09 19:01

坚持不懈的大白的博客之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.csdn.net/article/details/105965562），但是当时小编也是胡乱编写的，其实里面有很多问题的，现在小编重新发布一篇关于爬虫爬取...
关于#python#的问题：爬虫开发者为别人提供了一份爬虫工具，使用者违规爬取三方机密数据 python 爬虫
2023-01-30 18:19

回答 1 已采纳使用者肯定进去，这不用说，至于开发者，就存在具体情况，假如以买卖的方式提供，也跑不了。望采纳
为什么我的python爬虫有一些非动态的数据爬不到？ python 爬虫
2023-01-17 16:42

回答 8 已采纳有None不是很正常吗你看页面上有没有啊。还有不知道你想获取的事那个页面的数据
写爬虫时for in 循环有问题 python selenium 爬虫
2022-08-04 17:07

回答 2 已采纳 pro_list = a2.xpath('//*[@class="item4line1"]/dl') print(pro_list) for pro in pro_list: pic = pr
Python爬虫：代理ip电商数据实战
2024-07-24 08:56

是Dream呀的博客将这三类信息元素放入我们的爬虫之中，例如价格price_element = soup.select_one('.x-price-primary span[itemprop="price"]')，然后运行爬虫结果，会发现其输出了所有代理ip的信息以及我们所需要的商品的价格和运费...
我的python爬虫的循环遍历为什么报错？ python 爬虫
2023-01-17 13:25

回答 5 已采纳你把res打印出来看下。应该是request.get方法没有获取到数据，或者获取的数据格式和你想要的不一致，所以报错了。如果是获取的数据不对，检查下您的请求参数是否正确。
Python爬虫案例解析：五个实用案例及代码示例（学习爬虫看这一篇文章就够了）
2023-07-07 23:59

会点编程的博客然后，我们计算股票的收益率，通过计算每日收盘价的变化百分比。结论：在本篇博客中，我们介绍了五个...对于每个图片链接，我们发送GET请求获取图片的响应，并使用with open语句打开一个文件，将图片的内容写入文件。
我的第一个Python爬虫——谈心得
2018-03-30 19:24

跬步至以千里的博客相信各大高校应该都有本校APP或超级课程表之类的软件，在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力，所以记下了这篇博客，用于总结我所学到的东西，以及用于记录我的第一个爬虫的初生。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

悬赏问题

¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，

爬虫问题：我的html有啥问题，为什么43行的循环进不去（江苏省就是一个单列，列名城市，13个江苏城市）？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新