在爬取网页数据数据解析完成，一共返回九个列表，然后发现解析出的数据前三个的格式都有问题，在返回的列表中有\r\n和大量空格，请问怎么去掉这个？

import requests
from lxml import etree
if __name__ == '__main__':
    url = 'http://www.tianqihoubao.com/aqi/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36'
    }
    page_text = requests.get(url=url, headers=headers).text
    tree = etree.HTML(page_text)
    city_list = tree.xpath('//div[@class="citychk"]/dl/dd')
    city_list = city_list[1:]
    for dd in city_list:
        #  获取城市名称和href和url
        city_name = dd.xpath('./a/text()')[0]
        city_name = city_name.encode('iso-8859-1').decode('gbk')
        # print(city_name)
        city_href = dd.xpath('./a/@href')[0]
        city_url = 'http://www.tianqihoubao.com' + city_href
        #  获取url响应数据
        city_AQI = requests.get(url=city_url, headers=headers).text
        city_tree = etree.HTML(city_AQI)
        city_aqi_list = city_tree.xpath('//div[@class="box p"]//li')[4:16]
        # print(city_aqi_list)
        for li in city_aqi_list:
            #  aqi每个月的url获取
            li_name = li.xpath('./a/@title')[0]
            li_href = li.xpath('./a/@href')[0]
            li_url = 'http://www.tianqihoubao.com' + li_href
            #  获取每个月aqi详细数据
            li_page = requests.get(url=li_url, headers=headers).text
            li_tree = etree.HTML(li_page)
            li_list = li_tree.xpath('//div[@class="api_month_list"]//tr')
            title = li_list[0]
            # print(li_list)
            path = city_name + li_name + '.txt'
            with open(path, 'w', encoding='utf-8') as fp:
                for data in li_list[1:]:
                    data_name = data.xpath('./td[1]/text()')
                    data_name = list(filter(None,data_name))
                    print(data_name)
                    grade = data.xpath('./td[2]/text()')
                    grade = list(filter(None, grade))
                    print(grade)
                    AQI = data.xpath('./td[3]/text()')
                    AQI = list(filter(None, AQI))
                    print(AQI)
                    PM25 = data.xpath('./td[5]/text()')
                    print(PM25)
                    PM10 = data.xpath('./td[6]/text()')
                    print(PM10)
                    So2 = data.xpath('./td[7]/text()')
                    print(So2)
                    No2 = data.xpath('./td[8]/text()')
                    print(No2)
                    Co = data.xpath('./td[9]/text()')
                    print(Co)
                    O3 = data.xpath('./td[10]/text()')
                    print(O3)
-

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjh4312 2023-04-01 16:44
关注
strip()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫爬取网页数据并解析数据
2020-12-16 22:54

【Python爬虫爬取网页数据并解析数据】 Python爬虫是一种自动抓取互联网信息的程序，也称为网络蜘蛛或机器人。它通过模拟浏览器发送HTTP请求，接收服务器响应，按照预设的规则对网页内容进行抓取。爬虫的灵活性很高...
python解析网页数据_python爬虫——爬取网页数据和解析数据
2020-12-10 14:08

weixin_39579483的博客 2.网络爬虫的功能图2网络爬虫可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取网站上面的图片，比如有些朋友将某些网站上的图片全部爬取下来，集中进行浏览，同时，网络爬虫也可以用于金融投资领域，比...
实例讲解Python爬取网页数据
2020-09-20 06:57

标题和描述表明本文将讲解如何使用Python进行网页数据的爬取，并通过具体实例演示了整个过程。以下是对文章中知识点的详细解说： 1. **导入必要的模块**：文章首先介绍了如何使用webbrowser模块来打开浏览器并...
Python实现爬取网页中动态加载的数据
2020-09-16 09:27

### Python 实现爬取网页中动态加载的数据在互联网数据采集的过程中，经常需要处理动态加载的数据，这类数据通常不会直接包含在网页的初始HTML代码中，而是通过JavaScript等技术动态加载到网页上。这就给传统的...
Python大数据之从网页上爬取数据的方法详解
2020-09-18 11:11

在当今的数据驱动时代，从网页上爬取数据成为了获取信息和分析数据的重要手段，Python作为一种功能强大的编程语言，因其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言之一。本篇文章主要介绍了如何使用...
Python爬取YY评级分数并保存数据实现过程解析
2020-09-16 19:19

Python爬取YY评级分数并保存数据的实现过程主要涉及网络请求、HTML解析和数据存储三个核心环节。下面将详细介绍每个步骤以及相关知识点。一、网络请求在Python中，我们可以使用requests库来发送HTTP请求。在本例...
使用Python爬取一个网页并解析
2021-05-15 20:27

执章学长的博客使用Python爬取一个网页并解析爬虫准备Python基础语法爬取一个网页的整体思路基础概念简单思路详细思路代码示例数据在目标url中数据通过其他url返回爬虫准备 Python基础语法首先，当你看到这篇文章的时候，我们...
python简单实现从静态网页爬取数据
2020-12-21 13:18

在Python中，从静态网页爬取数据是一项基本的网络数据抓取任务，主要涉及网络请求、HTML解析和数据存储三个核心环节。以下将详细介绍这些知识点： 1. **网络请求**： - `urllib.request`模块是Python标准库中的一...
基于python的互联网数据爬取与解析的研究与实践.pdf
2021-06-29 12:29

通过本文的研究与实践，我们可以看到Python语言及其丰富的第三方库在数据爬取和解析方面的应用价值，同时也认识到了在实际操作中需要注意的法律道德问题和技术细节。随着技术的不断发展，网络数据爬取技术将会更加...
python爬取数据返回空列表_Xpath在选择器中正确，在代码中返回的是空列表问题...
2020-11-29 14:04

weixin_39712865的博客是元素中有tbody的原因，这个元素是html生成时产生的，在使用xpath解析的时候无法解析，因此返回的列表为空值。2.是因为没有写入获取的内容。比如在xpath选择其中可以使用但是在解析中没有带入//text()三、解决办法...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月1日
展开全部

在爬取网页数据数据解析完成，一共返回九个列表，然后发现解析出的数据前三个的格式都有问题，在返回的列表中有\r\n和大量空格，请问怎么去掉这个？

2条回答 默认 最新

问题事件

2条回答默认最新