在爬取网页数据数据解析完成，一共返回九个列表，然后发现解析出的数据前三个的格式都有问题，在返回的列表中有\r\n和大量空格，请问怎么去掉这个？

import requests
from lxml import etree
if __name__ == '__main__':
    url = 'http://www.tianqihoubao.com/aqi/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36'
    }
    page_text = requests.get(url=url, headers=headers).text
    tree = etree.HTML(page_text)
    city_list = tree.xpath('//div[@class="citychk"]/dl/dd')
    city_list = city_list[1:]
    for dd in city_list:
        #  获取城市名称和href和url
        city_name = dd.xpath('./a/text()')[0]
        city_name = city_name.encode('iso-8859-1').decode('gbk')
        # print(city_name)
        city_href = dd.xpath('./a/@href')[0]
        city_url = 'http://www.tianqihoubao.com' + city_href
        #  获取url响应数据
        city_AQI = requests.get(url=city_url, headers=headers).text
        city_tree = etree.HTML(city_AQI)
        city_aqi_list = city_tree.xpath('//div[@class="box p"]//li')[4:16]
        # print(city_aqi_list)
        for li in city_aqi_list:
            #  aqi每个月的url获取
            li_name = li.xpath('./a/@title')[0]
            li_href = li.xpath('./a/@href')[0]
            li_url = 'http://www.tianqihoubao.com' + li_href
            #  获取每个月aqi详细数据
            li_page = requests.get(url=li_url, headers=headers).text
            li_tree = etree.HTML(li_page)
            li_list = li_tree.xpath('//div[@class="api_month_list"]//tr')
            title = li_list[0]
            # print(li_list)
            path = city_name + li_name + '.txt'
            with open(path, 'w', encoding='utf-8') as fp:
                for data in li_list[1:]:
                    data_name = data.xpath('./td[1]/text()')
                    data_name = list(filter(None,data_name))
                    print(data_name)
                    grade = data.xpath('./td[2]/text()')
                    grade = list(filter(None, grade))
                    print(grade)
                    AQI = data.xpath('./td[3]/text()')
                    AQI = list(filter(None, AQI))
                    print(AQI)
                    PM25 = data.xpath('./td[5]/text()')
                    print(PM25)
                    PM10 = data.xpath('./td[6]/text()')
                    print(PM10)
                    So2 = data.xpath('./td[7]/text()')
                    print(So2)
                    No2 = data.xpath('./td[8]/text()')
                    print(No2)
                    Co = data.xpath('./td[9]/text()')
                    print(Co)
                    O3 = data.xpath('./td[10]/text()')
                    print(O3)
-

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjh4312 2023-04-01 16:44
关注
strip()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

在爬取网页数据数据解析完成，一共返回九个列表，然后发现解析出的数据前三个的格式都有问题，在返回的列表中有\r\n和大量空格，请问怎么去掉这个？ python
2023-04-01 16:27

回答 2 已采纳 strip()
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 19:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
PYTHON etree无法获得数据 python 爬虫
2021-08-27 14:40

回答 2 已采纳代码书写没问题，是你ps = tree.xpath('//head/text()')匹配的原因。
python解析网页数据_python爬虫——爬取网页数据和解析数据
2020-12-10 14:08

weixin_39579483的博客 2.网络爬虫的功能图2网络爬虫可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取网站上面的图片，比如有些朋友将某些网站上的图片全部爬取下来，集中进行浏览，同时，网络爬虫也可以用于金融投资领域，比...
python的pandas如何把一个由列表构成的双重列表转换成表格 python
2023-02-26 23:45

回答 2 已采纳。。。亲，构建Dataframe你可能还需要再熟悉一下。 column = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)
python爬虫如何只爬取标签内容 python
2019-04-28 11:24

回答 1 已采纳用 for key in ee.keys(): print（key）就行啦
想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 22:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
python爬取数据教程_python爬虫爬取网页数据并解析数据
2020-12-06 22:32

weixin_39607798的博客 2.网络爬虫的功能网络爬虫可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取网站上面的图片，比如有些朋友将某些网站上的图片全部爬取下来，集中进行浏览，同时，网络爬虫也可以用于金融投资领域，比如...
python房天下爬虫问题 python
2021-07-19 13:55

回答 1 已采纳用xpath直接在页面取城市名把 //div[@class="s4Box"]/a[@href="#"]/text() 你这个代码可读性太差啦。。。
想学习后端的话那种语言比较好呢？ echarts 前端后端
2021-12-02 21:12

回答 2 已采纳既然用python将数据爬下来，那么你后端就用python写，了解一下python网络编程相关知识，应该就可以了
module的对象没有len，如何解决？(语言-python) python 爬虫
2023-02-12 20:11

回答 3 已采纳第26行，BeautifulSoup第1个参数应该是个字符串类型，猜测你的本意应该是getImg()获取到的内容，但是现在传的是html，而这个html是import 导入进来的，应该是个模块吧，这个
python爬取数据返回空列表_Xpath在选择器中正确，在代码中返回的是空列表问题...
2020-11-29 14:04

weixin_39712865的博客是元素中有tbody的原因，这个元素是html生成时产生的，在使用xpath解析的时候无法解析，因此返回的列表为空值。2.是因为没有写入获取的内容。比如在xpath选择其中可以使用但是在解析中没有带入//text()三、解决办法...
python爬虫爬到中间报错 python selenium 爬虫
2023-02-27 15:28

回答 3 已采纳 ..谢邀。页数有点多，就不跑完测了。报错是list index out of range,如果是在371页报的错，跟最后一页条数不够没啥关系。那首先317页和316页有啥区别？是317页就不够40条
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客网络爬虫技术，虽说有个诡异的名字，让能第一反应是那种软软的蠕动的生物，但它却是一个可以在虚拟世界里，无往不前的利器。爬虫准备工作我们平时都说Python爬虫，其实这里可能有个误解，爬虫并不是Python独有的...
使用Python爬取一个网页并解析
2021-05-15 20:27

执章学长的博客使用Python爬取一个网页并解析爬虫准备Python基础语法爬取一个网页的整体思路基础概念简单思路详细思路代码示例数据在目标url中数据通过其他url返回爬虫准备 Python基础语法首先，当你看到这篇文章的时候，我们...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月1日
展开全部

悬赏问题

¥100 数字取证课程关于FAT文件系统的操作
¥15 如何使用js实现打印时每页设置统一的标题
¥15 安装TIA PortalV15.1报错
¥15 能把水桶搬到饮水机的机械设计
¥15 Android Studio中如何把H5逻辑放在Assets 文件夹中以实现将h5代码打包为apk
¥15 使用小程序wx.createWebAudioContext()开发节拍器
¥15 关于#爬虫#的问题：请问HMDB代谢物爬虫的那个工具可以提供一下吗
¥15 vue3+electron打包获取本地视频属性，文件夹里面有ffprobe.exe 文件还会报错这是什么原因呢？
¥20 用51单片机控制急停。
¥15 孟德尔随机化结果不一致

在爬取网页数据数据解析完成，一共返回九个列表，然后发现解析出的数据前三个的格式都有问题，在返回的列表中有\r\n和大量空格，请问怎么去掉这个？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新