使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬

import requests
from bs4 import BeautifulSoup
urls = [
    f"https://cnblogs.com/#p{page}"  
    for page in range(1,5+1)
]
def parse(url):
    print(url)
    r = requests.get(url)
    r.encoding = 'uft-8'
    html= r.text
    soup = BeautifulSoup(html,'lxml')
    links = soup.find_all('a',class_ = 'post-item-title')
    return [
            (link.get('href'),link.text) 
                for link in links ]
def main():
    for url in urls:
        for result in parse(url):
            print(result)
        print('\n')
            
if __name__ == "__main__":
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-04-03 11:05
关注
问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https://cnblogs.com/sitehome/p/{page}' for page in range(1, 6)]即可。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬虫，python学习，如何用python爬取视频资源
2021-09-19 18:42

僭醴。的博客郑重声明：该文章仅供参考学习，他人不得转载，利用非法手段牟利。...第二步，编写python代码四.AES加密的的m3u8文件 first.我们需要下载每一集的目录（m3u8文件） second.上代码这篇文章的由来，是我为.
重复爬取同页的第一个内容 python 爬虫
2021-12-20 22:38

回答 1 已采纳 for url in urls: html = requests.get(url, headers=headers) selector = etree.HTML(html.text)
为什么我的python爬取内容只显示最后一个数据，如果可以，希望附改正解决代码！ python 爬虫
2022-08-09 13:39

回答 3 已采纳
为什么用python 爬取数据到excel中300多行只剩下一行？ python vscode 开发语言有问必答
2021-08-01 12:32

回答 4 已采纳将写入文件语句放到循环外，加上列名并逐行写入，后面的代码可以这样写： #code with open('data/51job.csv','w') as f: f.write(','.join(
Python动态爬取CSDN博客信息
2021-01-07 17:08

知鱼栏的博客大三上刚接触python，在最后的学期实训中老师想让我们在博客园上写一篇有关于爬虫的博客(说是方便爬取每篇博客的信息)，但是个人属实不喜欢博客园的界面，于是在CSDN上编写了博客然后爬取自己博客的信息。...
为什么这个python代码只能抓取豆瓣top250最后一页的内容 python 有问必答
2021-08-06 14:39

回答 2 已采纳因为解析语句没有在for循环当中，下面这样就可以有帮助，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: YangPC @QQ:3
Python，json为什么获取不到第二个中括号的内容呢？ python
2021-08-08 17:20

回答 3 已采纳 info['results'][0]['alarms']
求每次只能爬取第一页的数据，如何爬取这种翻页的网页代码！ python 有问必答
2021-08-20 20:07

回答 4 已采纳直接请求数据接口就行了，分页参数是pn，这修改就行，示例代码如下，有帮助麻烦点个采纳【本回答右上角】，谢谢~~有其他问题可以继续交流~ http://3.push2.eastmoney.com/api
推荐一部python教程_Python爬虫入门教程：博客园首页推荐博客排行的秘密
2020-11-23 19:56

weixin_39730263的博客看到首页的推荐博客排行时，心里痒痒的，想想看看这些大佬究竟是写了什么文章这么受欢迎，可以被推荐。所以用Python抓取了这100位推荐博客，简单分析了每个博客的文章分类，阅读排行榜，评论排行榜及推荐排行榜，最....
爬取数据html页面时标签之间的内容没有了 python 有问必答
2021-05-17 16:12

回答 5 已采纳可能页面是异步加载的，要F12分析页面数据加载的链接参数传递，对数据进行post或get,参考https://blog.csdn.net/qq_38396897/article/details/823
[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）
2019-09-28 22:55

Eastmount的博客这是作者的系列网络安全自学教程，主要是关于网安工具和实践操作的在线笔记，特分享出来...本文参考了爱春秋ADO老师的课程内容，这里也推荐大家观看他Bilibili和ichunqiu的课程，同时也结合了作者之前的经验进行讲解。
python+pytest接口自动化(4)-requests发送get请求
2023-02-28 13:48

一个处女座的测试的博客 requests.get() # 用于GET请求requests.post() # 用于POST请求requests.put() # 用于PUT请求requests.delete() # 用于DELETE请求当然还有更多的方法，这里只列举常用的。
没有解决我的问题, 去提问

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬

4条回答 默认 最新

悬赏问题

4条回答默认最新