dla00 2020-04-14 17:07 采纳率: 0%
浏览 312

python小白 使用pd.DataFrame模块保存多个网页数据,运行后的结果只有第一页的数据

import  requests
from lxml import etree
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}
r = requests.get('https://book.douban.com/subject/34857216/comments/hot?p={1-3}',headers=headers)
t=r.text

s=etree.HTML(t)

x=(s.xpath('//*[@id="comments"]/ul[1]/li/div[2]/p/span/text()'))    #浏览器复制
import  pandas  as  pd
import  numpy as np
df=pd.DataFrame(x)
df.to_csv('duanping6.csv',encoding="utf_8_sig")

图片说明

请教一下各位大神,请问这个什么原因导致只能爬取保存第一页的数据,是因为url写的有问题吗?

  • 写回答

1条回答

  • Lonelypatients° 2020-04-15 09:26
    关注

    "https://book.douban.com/subject/34857216/comments/hot?p={}".format(i) p是分页值, 你得给他一个循环值 例如有三页, 也就是range一个1,4,这样就有三页数据了

    评论

报告相同问题?

悬赏问题

  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度
  • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效
  • ¥15 再不同版本的系统上,TCP传输速度不一致
  • ¥15 高德地图点聚合中Marker的位置无法实时更新
  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式