dla00 2020-04-14 17:07 采纳率: 0%
浏览 312

python小白 使用pd.DataFrame模块保存多个网页数据,运行后的结果只有第一页的数据

import  requests
from lxml import etree
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}
r = requests.get('https://book.douban.com/subject/34857216/comments/hot?p={1-3}',headers=headers)
t=r.text

s=etree.HTML(t)

x=(s.xpath('//*[@id="comments"]/ul[1]/li/div[2]/p/span/text()'))    #浏览器复制
import  pandas  as  pd
import  numpy as np
df=pd.DataFrame(x)
df.to_csv('duanping6.csv',encoding="utf_8_sig")

图片说明

请教一下各位大神,请问这个什么原因导致只能爬取保存第一页的数据,是因为url写的有问题吗?

  • 写回答

1条回答 默认 最新

  • Lonelypatients° 2020-04-15 09:26
    关注

    "https://book.douban.com/subject/34857216/comments/hot?p={}".format(i) p是分页值, 你得给他一个循环值 例如有三页, 也就是range一个1,4,这样就有三页数据了

    评论

报告相同问题?

悬赏问题

  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 有没有帮写代码做实验仿真的
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥30 vmware exsi重置后登不上
  • ¥15 易盾点选的cb参数怎么解啊
  • ¥15 MATLAB运行显示错误,如何解决?
  • ¥15 c++头文件不能识别CDialog
  • ¥15 Excel发现不可读取的内容
  • ¥15 关于#stm32#的问题:CANOpen的PDO同步传输问题
  • ¥20 yolov5自定义Prune报错,如何解决?