python爬虫,爬取的数据异常，如何解决？

python爬虫,爬取的数据异常，只提取了每一页的第一个内容

import requests
from lxml import etree


def get_data(page):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,'
                            ' like Gecko) Chrome/109.0.0.0 Safari/537.36'}
    res = requests.get('https://ssr1.scrape.center/page/' + str(page), headers=header)
    return res.content


def html_data(respon):
    html = etree.HTML(respon)
    titles = html.xpath('//div[2]/a/h2/text()')
    liebies = html.xpath('//div/div/div[2]/div[1]/button/span/text()')
    pingfens = html.xpath('//div/div/div[3]/p[1]/text()')
    shijians = html.xpath('//div/div[2]/div[3]/span/text()')
    lianjies = html.xpath('//div/div/div[2]/a/@href')
    chandis = html.xpath('//div/div/div[2]/div[2]/*/text()')
    for title, liebie, pingfen, shijian, lianjie, \
            chandi in zip(titles, liebies, pingfens, shijians, lianjies, chandis):
        pingfen=pingfen.strip()
        return f'电影名：{title}\n剧情：{liebie}\n评分：{pingfen}\n上映时间:{shijian}\n发行地：{chandi}\n链接：https://ssr1.scrape.center{lianjie}\n=========================================\n'

def save_data(foods):
    f = open('foods.txt', 'a', encoding='utf-8')
    f.write(str(foods))
if __name__ == '__main__':
    for i in range(1, 11):
        page = i
        respon = get_data(page)
        foods = html_data(respon)
        html_data(respon)
        save_data(foods)
        print(f'---正在保存第{i}页---')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

asgpt 2023-02-22 22:36

关注

这个问题在于html_data()函数中的return语句放在了for循环内部，这导致函数只能返回第一个电影的信息。把return语句缩进移动到for循环之外，这样才能返回整个页面的电影信息。
另外，save_data()函数中也应该保存字符串而不是字典。


```python

import requests
from lxml import etree

def get_data(page):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,'
                            ' like Gecko) Chrome/109.0.0.0 Safari/537.36'}
    res = requests.get('https://ssr1.scrape.center/page/' + str(page), headers=header)
    return res.content

def html_data(respon):
    html = etree.HTML(respon)
    titles = html.xpath('//div[2]/a/h2/text()')
    liebies = html.xpath('//div/div/div[2]/div[1]/button/span/text()')
    pingfens = html.xpath('//div/div/div[3]/p[1]/text()')
    shijians = html.xpath('//div/div[2]/div[3]/span/text()')
    lianjies = html.xpath('//div/div/div[2]/a/@href')
    chandis = html.xpath('//div/div/div[2]/div[2]/*/text()')
    result = ''
    for title, liebie, pingfen, shijian, lianjie, chandi in zip(titles, liebies, pingfens, shijians, lianjies, chandis):
        pingfen=pingfen.strip()
        result += f'电影名：{title}\n剧情：{liebie}\n评分：{pingfen}\n上映时间:{shijian}\n发行地：{chandi}\n链接：https://ssr1.scrape.center{lianjie}\n=========================================\n'
    return result

def save_data(foods):
    f = open('foods.txt', 'a', encoding='utf-8')
    f.write(foods)

if __name__ == '__main__':
    for i in range(1, 11):
        page = i
        respon = get_data(page)
        foods = html_data(respon)
        save_data(foods)
        print(f'---正在保存第{i}页---')

在上述修改后的代码中，html_data()函数中使用result变量保存电影信息字符串，并在循环结束后返回该字符串。在save_data()函数中，将foods参数写入文件时，直接写入字符串即可。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python指南：六步教你如何使用python爬虫爬取数据
2024-09-19 10:02

WANGWUSAN66的博客不过没有js类语言基础也没关系，主要步骤就是，保留相同的部分就行，慢慢的试，总会对的。如上图所示，我们在找到想要爬取的页面部分的网页代码后，将鼠标放置于代码上，右键，copy到selector部分。
python爬虫爬取网页数据并解析数据
2020-09-24 10:46

Python作为一门功能强大的编程语言，提供了丰富的第三方库用于网络爬虫的开发，例如requests用于发送网络请求，BeautifulSoup用于解析HTML文档等。网络爬虫的基本概念涉及到了其功能的广义性。它可以用于搜索引擎...
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
Python爬虫爬取漫画
2024-11-22 16:22

使用Python爬虫爬取漫画不仅能够帮助用户快速收集漫画资源，也能够为相关研究提供便利。 Python爬虫技术主要涉及网络请求、网页解析、数据存储等几个方面。在爬取漫画时，首先需要发送网络请求到目标漫画网站，获取...
如何用六步教会你使用python爬虫爬取数据
2023-02-22 10:09

AI大模型学习教程的博客到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！如果对Python感兴趣的话...
如何使用python爬虫爬取数据？python爬虫爬取数据的六个步骤
2023-09-20 10:54

苏卡不列-python的博客比如我们现在要爬取的是微博热搜页面，进入页面，按下F12，就会出现网页的js语言设计部分，找到网页上的Network部分，可以使用ctrl+r刷新一下页面。然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，...
Python爬虫爬取招聘数据和代码.zip
2020-05-07 10:50

这个压缩包“Python爬虫爬取招聘数据和代码.zip”提供了一个完整的解决方案，教你如何利用Python来爬取与Python编程语言相关的招聘信息。首先，我们来详细探讨Python爬虫的基础知识。Python之所以被广泛用于爬虫...
Python爬虫爬取智联招聘
2018-05-29 16:44

总结以上知识点，Python爬虫不仅可以用于简单地爬取网页内容，还可以进行复杂的数据分析和处理。随着编程技能的提升和对相关库工具的熟悉，可以开发出更加高效、智能的爬虫程序，用于解决实际问题。在进阶版中，作者...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科的信息。百度百科是中国最大的中文百科全书，其内容丰富、涵盖广泛，是爬虫技术学习者非常...
Python 数据爬取（爬虫）：从零开始学会爬取网页数据
2025-03-31 10:56

一只蜗牛儿的博客本文介绍了如何使用 Python 编写简单的网页爬虫程序，涵盖了静态网页的抓取、动态网页抓取、批量抓取、数据存储和反爬虫策略等内容。通过requests和Selenium等工具，我们能够高效地抓取各种网页数据。编写爬虫时，请...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月22日

python爬虫,爬取的数据异常，如何解决？

3条回答 默认 最新

问题事件

3条回答默认最新