怎么实现简单的python翻页并且保存数据？

import requests
from lxml import etree
url='https://top.chinaz.com/hangye/index_yule_xiaoshuo.html'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}
rqg=requests.get(url=url,headers=headers)
rqg_text=rqg.text
rqg.encoding='utf8'
html=etree.HTML(rqg_text)
node_list=html.xpath('//*[@id="content"]/div[4]/div[3]/div[2]')
alexa=[]
fls=[]
for node in node_list:
    name=node.xpath('./ul/li/div[2]/h3/a/text()')
    website=node.xpath('./ul/li/div[2]/h3/span/text()')
    alexa1=node.xpath('./ul/li/div[2]/div/p[1]/span/text()')
    for i in range(len(alexa1)):
        alexa12=node.xpath('./ul/li/div[2]/div/p[1]/a/text()')
        for i in range(len(alexa12)):
            alexa.append(alexa1[i]+alexa12[i])
    fls1=node.xpath('./ul/li/div[2]/div/p[4]/span/text()')
    for i in range(len(fls1)):
        fls2=node.xpath('./ul/li/div[2]/div/p[4]/a/text()')
        for i in range(len(fls2)):
            fls.append(fls1[i]+fls2[i])
    pm=node.xpath('./ul/li/div[3]/div/strong/text()')
    score=node.xpath('./ul/li/div[3]/div/span/text()')
    text=node.xpath('./ul/li/div[2]/p/text()')
print(name)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python技巧(数据分析及可视化) 2021-03-29 08:49
关注
实现翻页可以有2种:

第1种

找网页的规律, 可以通过如下方法构造你需要爬取的网址

lis1 = ['' if i ==1 else '_' +str(i) for i in range(1,10)] url = ['https://top.chinaz.com/hangye/index_yule_xiaoshuo{}.html'.format(i) for i in lis1]

通过for循环爬取每个网页的信息
保存数据创建一个空的dataframe, 通过标签节点获取数据,添加到dataframe中

第2种

用selenium 模拟浏览器, 点击翻页

简单的爬虫我也习惯用for循环, 这个你可以参考下:

https://blog.csdn.net/muyashui/article/details/114298666
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何用Python来实现软件卸载？ python
2021-07-22 22:23

回答 2 已采纳所谓卸载，就是反安装，需要讲安装包做过的事情全部都反正来一遍，包括但不限于：删除文件删除注册表项删除文档中用户配置删除注册的服务问题是，除了安装包，其他工具并不清楚它在安装时做了哪些事，所以干净的
python 如何根据csv表格筛选数据？ python
2022-04-03 03:07

回答 5 已采纳 res = [] with open("aa.csv",'rt') as r: for line in r: line=line.strip()
如何使用python对excel做归一化处理并保存？ python 数据挖掘有问必答机器学习
2022-03-27 15:20

回答 2 已采纳按列试试 axis=0
Python爬取数据：翻页操作
2022-11-24 16:04

小凹兔的博客 Python爬取视频在已经实现，如果爬取数据的时候发现不止一页数据，而是很多页数据的时候，我们就需要爬虫自行翻页操作继续获取另一页的数据。
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
为什么python使用线程池会丢失部分数据？ python
2020-08-08 18:39

回答 1 已采纳 ``` import os from concurrent.futures import ThreadPoolExecutor from time import perf_counter
python存储数据前先清除数据表中所有旧数据？ mysql python
2022-04-12 16:49

回答 1 已采纳数据库吗？如果旧数据没用了，也没保留价值，大表的话，就直接drop 掉，再新建表。这样效率高
python爬新闻并保存csv_Python爬虫如何实现自动翻页并将数据存入csv中？
2020-11-26 04:16

weixin_39755873的博客求大神指导，本人刚接触到python爬虫，有一些问题，再此感激不尽！！！！我想爬取一些英文新闻标题，然后把他们存在一个csv文件里面我的代码如下import csv, requests, refrom bs4 import BeautifulSoupurls = ['...
VScode中Python代码不高亮显示？？ python vscode 有问必答
2022-04-10 22:05

回答 2 已采纳安装这两个插件然后设置颜色主题或者你也可以安装其它你喜欢的然后颜色主题插件
用python requests.post（）实现翻页，表单上传后返回数据缺失 python 有问必答
2021-11-27 19:50

回答 1 已采纳 1.需要传cookies参数,2.data数据的即字典的值都要写成字符串。获取json后再从中用bs4解析出数据。参考如下代码： import requests cookies = { 'P
一般数据分析都是用excel，还是Python，还是mysql多些？ python 数据分析数据挖掘
2022-08-20 16:52

回答 1 已采纳机器学习相关的方面，用python会比较多一点；因为机器学习涉及的知识面比较多，如图像识别、音频处理等等，岗位的要求都会有差异，但一般都会有以下要求：1、熟悉c++、java、python中的一种编程
python爬取数据怎样实现翻页_python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解...
2020-12-22 21:36

weixin_39608479的博客基本思路:首先用开发者工具找到需要提取数据的标签列利用xpath定位需要提取数据的列表然后再逐个提取相应的数据:保存数据到csv:利用开发者工具找到下一页按钮所在标签:利用xpath提取此标签对象并返回：调用点击事件,...
python不可变数据类型？ python
2022-10-09 06:13

回答 2 已采纳不可变数据类型:数字,字符串，元组可变数据类型:列表,字典,集合。
python selenium翻页_Python-selenium翻页爬取csdn博客保存数据入mysql
2020-12-10 22:19

weixin_39913648的博客取出爬取元素的值，并且打包成列表(方便数据的对应存储) time_list=[] content_list=[] count_list=[] for t in time: time_list.append(t.text) for c in content: content_list.append(c.text) for c in count: ...
【python爬虫】scrapy框架案例实现数据保存入MySQL
2022-05-23 11:42

王同学在这的博客文章目录前言往期知识点最终效果前言随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人...舍友打一把游戏的时间，我实现了一个selenium自动化测试并把数据保存到MySQL 最终效果还是老样子，先看一下最
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月1日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

怎么实现简单的python翻页并且保存数据？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新