python爬虫,爬取的数据异常，如何解决？

python爬虫,爬取的数据异常，只提取了每一页的第一个内容

import requests
from lxml import etree


def get_data(page):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,'
                            ' like Gecko) Chrome/109.0.0.0 Safari/537.36'}
    res = requests.get('https://ssr1.scrape.center/page/' + str(page), headers=header)
    return res.content


def html_data(respon):
    html = etree.HTML(respon)
    titles = html.xpath('//div[2]/a/h2/text()')
    liebies = html.xpath('//div/div/div[2]/div[1]/button/span/text()')
    pingfens = html.xpath('//div/div/div[3]/p[1]/text()')
    shijians = html.xpath('//div/div[2]/div[3]/span/text()')
    lianjies = html.xpath('//div/div/div[2]/a/@href')
    chandis = html.xpath('//div/div/div[2]/div[2]/*/text()')
    for title, liebie, pingfen, shijian, lianjie, \
            chandi in zip(titles, liebies, pingfens, shijians, lianjies, chandis):
        pingfen=pingfen.strip()
        return f'电影名：{title}\n剧情：{liebie}\n评分：{pingfen}\n上映时间:{shijian}\n发行地：{chandi}\n链接：https://ssr1.scrape.center{lianjie}\n=========================================\n'

def save_data(foods):
    f = open('foods.txt', 'a', encoding='utf-8')
    f.write(str(foods))
if __name__ == '__main__':
    for i in range(1, 11):
        page = i
        respon = get_data(page)
        foods = html_data(respon)
        html_data(respon)
        save_data(foods)
        print(f'---正在保存第{i}页---')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

asgpt 2023-02-22 22:36

关注

这个问题在于html_data()函数中的return语句放在了for循环内部，这导致函数只能返回第一个电影的信息。把return语句缩进移动到for循环之外，这样才能返回整个页面的电影信息。
另外，save_data()函数中也应该保存字符串而不是字典。


```python

import requests
from lxml import etree

def get_data(page):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,'
                            ' like Gecko) Chrome/109.0.0.0 Safari/537.36'}
    res = requests.get('https://ssr1.scrape.center/page/' + str(page), headers=header)
    return res.content

def html_data(respon):
    html = etree.HTML(respon)
    titles = html.xpath('//div[2]/a/h2/text()')
    liebies = html.xpath('//div/div/div[2]/div[1]/button/span/text()')
    pingfens = html.xpath('//div/div/div[3]/p[1]/text()')
    shijians = html.xpath('//div/div[2]/div[3]/span/text()')
    lianjies = html.xpath('//div/div/div[2]/a/@href')
    chandis = html.xpath('//div/div/div[2]/div[2]/*/text()')
    result = ''
    for title, liebie, pingfen, shijian, lianjie, chandi in zip(titles, liebies, pingfens, shijians, lianjies, chandis):
        pingfen=pingfen.strip()
        result += f'电影名：{title}\n剧情：{liebie}\n评分：{pingfen}\n上映时间:{shijian}\n发行地：{chandi}\n链接：https://ssr1.scrape.center{lianjie}\n=========================================\n'
    return result

def save_data(foods):
    f = open('foods.txt', 'a', encoding='utf-8')
    f.write(foods)

if __name__ == '__main__':
    for i in range(1, 11):
        page = i
        respon = get_data(page)
        foods = html_data(respon)
        save_data(foods)
        print(f'---正在保存第{i}页---')

在上述修改后的代码中，html_data()函数中使用result变量保存电影信息字符串，并在循环结束后返回该字符串。在save_data()函数中，将foods参数写入文件时，直接写入字符串即可。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
写一个爬取国家统计局福建省人口数据的Python吗，各位了 python 有问必答
2021-11-20 07:20

回答 3 已采纳爬取的是福建省最近20年（2001-2020）的“年末常住人口（单位：万人）”的数据网站：https://data.stats.gov.cn/easyquery.htm?cn=E0103 import
关于#BeautifulSoup#的.text的问题，请问如何解决？ python 爬虫
2022-08-11 16:59

回答 1 已采纳 soup.select("#main>#main_left>.book-mulu a")返回的是一个列表, 要加[0]访问列表的第一元素的.text另外.book-mulu 不是#main
如何使用python爬虫爬取数据？python爬虫爬取数据的六个步骤
2023-09-20 10:54

苏卡不列-python的博客比如我们现在要爬取的是微博热搜页面，进入页面，按下F12，就会出现网页的js语言设计部分，找到网页上的Network部分，可以使用ctrl+r刷新一下页面。然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，...
python里requests.get到的数据.json()出错是怎么回事，求解，急！~ python 有问必答爬虫
2021-10-05 00:13

回答 3 已采纳返回的值不符合json规范，先返回文本，打印内容看看，再做处理。
自己自学了Python3个月,学了基础和爬虫的基础知识，接下来不知应如何深造和发展，请专家指引名路，让我有学习的方向 python
2021-10-18 19:27

回答 6 已采纳大概的学习路线可以参考这篇文章爬虫逆向学习进阶路线_李玺-CSDN博客_爬虫进阶路线大数据时代下，爬虫技术逐渐成为一套完整的系统性工程
selenium爬虫报错，请各位大大帮我看下是哪里问题 python 爬虫
2021-12-15 22:43

回答 1 已采纳 get_product()函数里的xpath语法全都有问题啊1、//*后面不能有div了，直接接属性及属性值了2、说实话你第一句//*div[@class="items"]/div[@class="i
如何用六步教会你使用python爬虫爬取数据
2023-02-22 10:09

Python程序员小泉的博客到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！如果对Python感兴趣的话...
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
使用BeautifulSoup里的.text python 爬虫
2022-08-12 15:33

回答 2 已采纳 bs考虑到一个文档可能有很多个相同的标签，采用下标访问解决方法： gettitle = soup.select("#main>#main_left>.book-mulu a")[0].ge
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
Python 爬虫爬取 Instagram 博主照片视频-Python 爬虫
2024-04-24 22:40

现代计算机技术包括操作系统、数据库管理、编程语言、算法设计等。同时，人工智能、云计算和大数据等新兴技术也在不断推动计算机技术的进步。计算机技术的应用广泛，涵盖了各个领域，如商业、医疗、教育和娱乐等。...
xpath定位一模一样的元素，为什么selenium会报错 python selenium 爬虫
2021-12-16 20:07

回答 2 已采纳是text的问题，因为获取的内容是隐藏元素的文本，不能直接.text进行获取 from selenium import webdriver driver = webdriver.Chrome()
python爬虫爬取网页数据
2022-12-01 07:45

网络安全扬叔的博客 python爬虫爬取网页数据
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月22日

悬赏问题

¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 unity第一人称射击小游戏，有demo，在原脚本的基础上进行修改以达到要求
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line
¥500 火焰左右视图、视差（基于双目相机）

python爬虫,爬取的数据异常，如何解决？

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新