requests+xpath爬虫关于url翻页问题

from lxml import etree
import requests
import xlwt
import xlrd

class qunawang(object):

    def __init__(self):
        self.f = xlwt.Workbook()  # 创建工作薄
        self.sheet1 = self.f.add_sheet(u'景点信息', cell_overwrite_ok=True)  # 命名table
        self.rowsTitle = [u'编号',u'景点名', u'景点介绍', u'景点价格', u'景点地址', u'景点网址']  # 创建标题
        for i in range(0, len(self.rowsTitle)):
                # 最后一个参数设置样式
            self.sheet1.write(0, i, self.rowsTitle[i], self.set_style('Times new Roman', 220, True))
            # Excel保存位置
        self.f.save('F:/information/viewspot.xlsx')

    def set_style(self, name, height, bold=False):
        style = xlwt.XFStyle()  # 初始化样式
        font = xlwt.Font()  # 为样式创建字体
        font.name = name
        font.bold = bold
        font.colour_index = 2
        font.height = height
        style.font = font
        return style

    def getUrl(self):
        #加入自动换Url功能
        url = ('http://piao.qunar.com/ticket/list.htm?keyword=%E5%8D%97%E4%BA%AC&region=&from=mpl_search_suggest&page=2')
        self.spiderPage(url)

    def spiderPage(self,url):
        if url is None:
            return None


        try:
            data=xlrd.open_workbook('F:/information/viewspot.xlsx')
            table=data.sheets()[0]
            rowCount=table.nrows#获取行数
            user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
            headers={'User-Agent':user_agent}
            respon=requests.get(url,headers=headers)
            htmltext=respon.text
            s = etree.HTML(htmltext)
            trs = s.xpath('//*[@id="search-list"]/div')
            m=0
            for tr in trs:
                data=[]
                title = tr.xpath('./div/div[2]/h3/a/text()')
                location = tr.xpath('./div/div[2]/div/p/span/text()')
                introduce = tr.xpath('./div/div[2]/div/div[2]/text()')
                price = tr.xpath('./div/div[3]/table/tr[1]/td/span/em/text()')
                website = tr.xpath('./div/div[2]/h3/a/@href')
                title=title[0] if title else ''
                location=location[0] if location else ''
                introduce=introduce[0] if introduce else ''
                price=price[0] if price else ''
                website=website[0] if website else ''


                data.append(rowCount+m)
                data.append(title)
                data.append(introduce)
                data.append(price)
                data.append(location)
                data.append(website)

                for i in range(len(data)):
                    self.sheet1.write(rowCount+m,i,data[i])

                m+=1
                print(m)
                print(title, introduce, price, location, website)

        finally:
            self.f.save('F:/information/viewspot.xlsx')

if '_main_':
    qn=qunawang()
    qn.getUrl()

刚刚接触爬虫，参考了网上的一些代码，爬取的是去哪网南京的景点，我想加入可以翻页的功能，该如何添加

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 19:42
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：requests+xpath之贴吧图片爬取

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python——requests+xpath实现爬虫
2024-05-14 22:18

会逃跑的乌龟的博客本文章主要介绍使用python，通过requests+Xpath 爬虫的技术学习和实例。
Python爬虫课程作业，requests+xpath学习
2023-05-08 11:44

能学到什么：Python爬虫基础，requests基础，xpath数据提取。适用人群：软件开发与爬虫学习人群，具有一定的编程技术使用场景：爬虫学习与研究阅读建议：此资源在于综合学习Python爬虫技术，不仅是代码编写实现也...
Python爬虫实战，requests+xpath模块，Python实现爬取豆瓣影评
2021-11-12 14:53

小雁子学Python的博客利用利用requests+xpath爬取豆瓣影评，废话不多说。让我们愉快地开始吧~ 开发工具 **Python版本：**3.6.4 相关模块： requests模块； jieba模块； pandas模块 numpy模块 pyecharts模块；以及一些Python自带的模块...
Python爬虫基础之requests+xpath解决动态加载问题（四）-附件资源
2021-03-05 15:18

Python爬虫基础之requests+xpath解决动态加载问题（四）-附件资源
Python爬虫实战小案例， requests + Xpath解析【附源码】
2020-07-15 15:26

zhangbw~的博客提取页面信息时使用的是正则表达式，这还是比较烦琐，万一有地方写错了，可能...①、根据每一页的 URL 可以发现规律，每次都是 start 发生变化，而且每次变化 25 【25是每页的书籍数】 ②、通过浏览器来获取所需要
爬虫1：python+requests+xpath抓取豆瓣电影数据1.0
2021-07-10 15:46

许愿君~~的博客 1、用python来抓取豆瓣的排行电影的资源数据，主要用了requests抓取数据，xpath和正则表达式来分析数据，xlsx表格来保存数据等一、页面分析 1、保存表格下来的数据 2、豆瓣电影页面分析二、使用步骤 1.引入...
Python之requests+xpath爬取猫眼电影并写入数据库(图文教程)
2020-12-21 18:44

【Python之requests+xpath爬取猫眼电影并写入数据库(图文教程)】在这个教程中，我们将学习如何使用Python的requests库抓取猫眼电影网站的数据，并利用xpath解析HTML，最后将获取的信息存储到MySQL数据库中。以下是...
Python爬虫基础之Requests和XPath实例（三）
2018-12-21 20:08

Blessy_Zhu的博客如何用Python爬取多个页面的数据信息呢？这次通过豆瓣网top250的图书信息来进行学习。首先给出页面（如图1所示）的URL： https://book.douban.com/top250 ，我们要爬去的信息是：书名、链接、评分、一句话评价…… ...
Python爬虫技巧：使用Requests、JSON解析与XPath定位
2025-02-05 23:55

I am SuSu的博客【代码】python开发：爬虫示例——GET和POST请求处理。
requests库+xpath+lxml简单使用
2021-04-19 18:14

bigdata7的博客 python的requests 它是python的一个第三方库，处理URL比urllib这个库要方便的多，并且功能也很丰富。【可以先看4，5表格形式的说明，再看前面的】安装直接用pip安装，anconda是自带这个库的。 pip install ...
没有解决我的问题, 去提问

requests+xpath爬虫关于url翻页问题

1条回答 默认 最新

1条回答默认最新