dla00 2020-04-14 17:07 采纳率: 0%
浏览 312

python小白 使用pd.DataFrame模块保存多个网页数据,运行后的结果只有第一页的数据

import  requests
from lxml import etree
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}
r = requests.get('https://book.douban.com/subject/34857216/comments/hot?p={1-3}',headers=headers)
t=r.text

s=etree.HTML(t)

x=(s.xpath('//*[@id="comments"]/ul[1]/li/div[2]/p/span/text()'))    #浏览器复制
import  pandas  as  pd
import  numpy as np
df=pd.DataFrame(x)
df.to_csv('duanping6.csv',encoding="utf_8_sig")

图片说明

请教一下各位大神,请问这个什么原因导致只能爬取保存第一页的数据,是因为url写的有问题吗?

  • 写回答

1条回答 默认 最新

  • Lonelypatients° 2020-04-15 09:26
    关注

    "https://book.douban.com/subject/34857216/comments/hot?p={}".format(i) p是分页值, 你得给他一个循环值 例如有三页, 也就是range一个1,4,这样就有三页数据了

    评论

报告相同问题?

悬赏问题

  • ¥15 求daily translation(DT)偏差订正方法的代码
  • ¥15 js调用html页面需要隐藏某个按钮
  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?
  • ¥20 java项目连接sqlserver时报ssl相关错误
  • ¥15 一道python难题3
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 关于#python#的问题:自动化测试