求教，请问我在网上找到的这个代码，每次只能爬取第一页数据，怎么才能实现翻页爬取呢

import requests
from lxml import etree
from time import sleep
from fake_useragent import UserAgent
import pandas as pd

name_all = []
min_price_all = []
mean_price_all = []
max_price_all = []
guige_all = []
unit_all = []
data_all = []


for i in range(5):
    print(i)
    UA = UserAgent().edge
    url_base='http://www.xinfadi.com.cn/marketanalysis/0/list/{}.shtml'
    url = 'http://www.xinfadi.com.cn/marketanalysis/0/list/{}.shtml'.format(i+1)
    headers={
        'User-Agent':UA
    }
    response=requests.get(url,headers=headers)
    sleep(3)
 #   print(response.text)
 #   print(response.encoding)
    e = etree.HTML(response.text)
    name = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[1]/text()''')
    min_price = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[2]/text()''')
    mean_price = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[3]/text()''')
    max_price = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[4]/text()''')
    guige = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[5]/text()''')
    unit = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[6]/text()''')
    data = e.xpath('''//table[@class='hq_table']/tr[position()>1]/td[7]/text()''')

    name_all = name_all+name
    min_price_all = min_price_all+min_price
    mean_price_all = mean_price_all+mean_price
    max_price_all=max_price_all+max_price
    guige_all = guige_all+guige
    unit_all = unit_all+unit
    data_all=data_all+data
    if i % 300 == 0:
        all_info = {
                    '名称': name_all,
                    '最低价格': min_price_all,
                    '平均价格': mean_price_all,
                    '最高价格': max_price_all,
                    '规格': guige_all,
                    '单位':unit_all,
                    '日期':data_all
                }
        outdata = pd.DataFrame(all_info)
print(outdata)
        #outdata.to_csv('C:\\Users\geng\Desktop\蔬菜价格数据\新发地市场价格.csv', encoding='GBK')

上面这个是在网上找到的一段爬取蔬菜价格的代码，只能爬取第一页的数据，无法实现翻页


import requests #用来发送请求

from bs4 import BeautifulSoup#用来解析网页

import time#导入时间隔

import codecs
with open('新发地果蔬价格.csv','wb+') as cf:
    cf.write(codecs.BOM_UTF8)

for i in range(5):#爬取第一页到第100页的数据
    f = open("新发地果蔬价格.csv",mode='a',encoding="utf8")#写人文件新发地果蔬文件名,格式是csv.字符编码,a是文字
    resp = requests.get(f"http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml")
    print(resp)#200: ok, 302:重定向, 404:页面丢失,500:服务器错误
    page_one = BeautifulSoup(resp.text, "html.parser")#通过html来,把请求的网页打印出来
    #找到表格数据(table)
    table = page_one.find("table",attrs={"class":"hq_table"}) #表格特征是class和hq_table
    #找到所有表格的所有tr
    trs = table.find_all("tr")[1:]#获取表格的内容,通过列表来,第0个元素不要了,[第一行,第二行,到三行......
    for tr in trs:#tr是每一行内容,在所有的行中,遍历每一列的内容
        tds = tr.find_all("td")#tds是每一列的内容,[第一列,第二列,第三列......]
        name = tds[0].text.strip()#从第0项元素开始取值,取文本形式的内容数据,strip去掉左右两边所有的空格
        lowest = tds[1].text.strip()#获取到数据,去掉左右空格
        avg = tds[2].text.strip()#获取平均价数据,去掉左右空格
        highest = tds[3].text.strip()#获取最高价,去掉左右空格
        fenlei = tds[4].text.strip()#获取分类,去掉左右的空格
        danwei = tds[5].text.strip()#获取单位数据,去掉左右的空格
        date = tds[6].text.strip()#获取日期数据,去掉左右空ge
        f.write(f"{name},{lowest},{avg},{highest},{fenlei},{danwei},{date}\n")#把每种果蔬的名字.日期,价格写入,且换行
        #print(f"{name},{lowest},{avg},{highest},{fenlei},{danwei},{date}")
        print(f"一个页面完事了{i}")
    time.sleep(1)#防止服务器蹦了,间隔一秒钟

这是另一段代码，功能相同，也是无法翻页爬取，请问怎么才能翻页爬取内容

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
print("天涯") 2021-05-08 17:13
关注
resp = requests.get(f"http://www.xinfadi.com.cn/marketanalysis/0/list/{i}.shtml")

把你的代码替换成我的

第一页 1.shtml

第二页 2.shtml

希望能采纳
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

python怎么爬取excel_求教！ Python爬取的数据怎么写入Excel表格中
2020-11-28 14:24

weixin_39941620的博客爬取了基金网的一点数据，不知道怎么才能把爬取的数据写到Excel 中求指教import requestsimport re#url1=('http://fundgz.1234567.com.cn/js/161726.js?')#url2=('http://fundgz.1234567.com.cn/js/501009.j...
python爬取指定多个网页数据_Python爬取网站，前几个有数据，之后返回None？
2020-11-24 11:02

weixin_39864453的博客想获取廖雪峰python教程网站的内容练练手，发现有的章节能返回数据，但到Python基础这一章开始返回的都是None，没明白问题出在哪，求教错误如下：Traceback (most recent call last):File "scraping_the_tutorial.py...
python爬取指定内容_【求教】：如何用BeautifulSoup爬取指定标签下的内容
2020-11-24 02:29

weixin_39911056的博客先附上数据:Apple iPhone 6 (A1589) 16GB 金色移动4G手机用bs想要爬取...先附上代码：第一次尝试：#!/usr/bin/python2 #coding:utf-83 from bs4 import BeautifulSoup4 import re567 soup = BeautifulSoup(open('jd...
用python做数据爬取的问题虚心求教
2024-03-01 10:46

py有趣的博客 python爬虫文件转换
新手求教一个简单的python代码？
2025-10-12 08:52

云计算笔记的博客通过一个简单的斐波那契数列程序，迈出了编程的第一步，去学会如何使用变量、循环和打印语句来编写一个简单的Python程序。
求教，Python，爬取财务报表
2024-04-25 09:42

2401_84620910的博客有没有大神会这个题。
【求教】python爬取到的智联网址链接不全
2021-08-23 13:17

在路上_LL的博客【求教】python爬取到的智联网址链接不全提取 @href属性部分Python代码输出结果求教非常感谢！！！提取 @href属性部分Python代码 html = requests.get(url,headers=headers_1) selector = etree.HTML(html.text...
求教！把DataFrame中某一列数据变成列名该如何用Python代码实现？
2020-05-05 06:35

喵了咪吖的博客把DataFrame中某一列数据变成列名该如何用Python代码实现？想把上图变成下图如何用Python代码实现呢
python爬虫返回none_Python爬取网站，前几个有数据，之后返回None？
2020-12-23 11:21

weixin_39915721的博客想获取廖雪峰python教程网站的内容练练手，发现有的章节能返回数据，但到Python基础这一章开始返回的都是None，没明白问题出在哪，求教错误如下：Traceback (most recent call last):File "scraping_the_tutorial.py...
python爬取网页表格_求教如何通过python抓取网页中表格信息
2020-11-23 16:27

weixin_39669982的博客展开全部看你2113抓的是静态还是动5261态的了，这里是静态表4102格信息的代码：1653from BeautifulSoup import BeautifulSoupimport urllib2import reimport stringdef earse(strline,ch) :left = 0right = strline....
python爬取文本中的成语_python 关于爬取文本的三个问题
2020-12-23 05:43

清宵月明的博客学习了python入门，自己练习着想爬取日文网站文本，遇到三个问题一直解决不了。望老师高手给个解答。代码如下1.想爬取('div', {'class': 'boxIn clearfix minH'})下“p”的文字，报错内容为：AttributeError: ...
python爬虫，请教一下为何我爬取数据有的完整有的不完整爬的百家号登陆这一块还没解决但关注这一块很难解决
2019-03-14 15:05

耿直boys的博客下面附上我的代码。求教一下。我该考虑的东西都考虑是加载的时候认为我是爬虫么？ from selenium import webdriver import time from pyquery import PyQuery import re import os import csv def scrollTo_text...
求教大佬：Python 爬取数据运行结果Process finished with exit code 0
2020-08-12 07:15

My aim的博客这是第一次使用正则的代码，运行为Process finished with exit code 0 之后我以为是我的正则写的有问题，又使用BeautifulSoup编辑，运行结果还是Process finished with exit code 0 跪求大佬指点是哪里出问题...
Python爬携程指定景点评论的用户、评论内容及时间（景点黄龙溪为例）
2023-12-23 22:54

g191913的博客 Python爬携程指定景点评论的用户、评论内容及时间（景点黄龙溪为例）
求教！！！如何使用Python爬取ASPX网站中翻页URL不改变的网页内容？
2018-11-27 16:04

奋斗的小姑凉的博客最近在爬取一些网站获取少量数据，但是发现这个网站并不能用平常的构造表单来post，请大家帮忙看看啊网站链接：所爬取的网站链接其实主要是想获取以下的两个参数来构造表单进行翻页： function __doPostBack...
【求教】如何使用python爬取到高清原图？
2018-02-12 11:00

wgh132332的博客 python3爬取自己上传到豆瓣个人相册里的图片（每张2M，960x720），但是爬取下来的只有20kb，540x405，分析https://www.douban.com/photos/album/1657891127/这一网址（步骤：审查元素-->network -->...
kaggle 的notebook中的python版本在哪里设置呢，求教
2023-08-14 21:17

Brubrubruce的博客想使用kaggle运行一下深度学习代码，但是kaggle中的python版本太高了，运行不起来，求大神教一下python版本在哪设置，在下面这个页面我找不到设置的地方。
python 2048小游戏
2023-03-14 22:00

python 2048小游戏本人不知如何拖进文件夹，说已有了，求教。后期话会有一些其他的游戏。
我的Blog——python封装为exe的注意事项（封装exe看这一篇基本就够了）
2022-03-30 23:35

CharlesCai-蔡沐含的博客如何封装成exe？相信很多人都很像吧python文件封装成exe文件，这里我带来了几个方法： 1.auto-py-to-exe（推荐） auto-py-to-exe是比较好的封装库，虽然可能没什么人知道...这个名称也是一个保留域名(RFC 2606...
没有解决我的问题, 去提问

求教，请问我在网上找到的这个代码，每次只能爬取第一页数据，怎么才能实现翻页爬取呢

5条回答 默认 最新

5条回答默认最新