是白白 2021-07-03 23:33 采纳率: 100%
浏览 38
已结题

我爬虫没办法获取多页这该怎么处理哇

img

img

这个网站主要后三位数字变化

img

但是我这样写确并没有获取到我指定页面的数据

import re
import requests

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64',
    'Cookie': 'bcolor=; font=; size=; fontcolor=; width=; Hm_lvt_26c0596a5f449ac3144f90f3a3202786=1624770759,1625320560; hitme=1; hitbookid=17577; Hm_lpvt_26c0596a5f449ac3144f90f3a3202786=1625320791',
    'Referer': 'http://www.dvdspring.com/b/111582/'
}


def parse_page(url):
    response=requests.get(url,headers=headers)
    text=response.text
    titles=re.findall(r'<div class="bookname">.*?<h1>(.*?)</h1>',text,re.DOTALL)
    contents=re.findall(r'<div id="content">(.*?)</div>',text,re.DOTALL)
    fiction=[]
    for content in contents:
        x=re.sub('r<.*?>','',content,flags=re.S)
        fiction.append(x.strip())
        print(x.strip())




def main():
    url='http://www.dvdspring.com/b/111582/479440.html'
    for x in range(441,443):
        url='http://www.dvdspring.com/b/111582/479%s.html'%x
    parse_page(url)


if __name__ == '__main__':
    main()

这是完整的代码,麻烦帮忙看看救救孩子

  • 写回答

2条回答 默认 最新

  • 快ྂ乐ྂ至ྂ上ྂ 2021-07-04 00:16
    关注

    img
    把你第29行这句,缩进一下,放在for循环内。不然是先循环完了才 执行,永远都是获得的是最后一个

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 10月11日

悬赏问题

  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
  • ¥15 求daily translation(DT)偏差订正方法的代码
  • ¥15 js调用html页面需要隐藏某个按钮
  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?