俊熙君 2022-08-22 11:35 采纳率: 85.7%
浏览 60
已结题

Python爬虫,爬虫访问网站时遇到415. UnsupportedMediaType错误,运行结果为空

问题遇到的现象和发生背景

初学python爬虫,练习爬取1~200页文章,不知道是不是因为页面的url找错了,运行结果啥也没有。

问题相关代码,请勿粘贴截图

#导入必要模块
import requests
from bs4 import BeautifulSoup
import re

#创建idx 1~200页
for idx in range(200):
print("#"*30,idx+1)

#网站url
url = " https://www.cnblogs.com/AggSite/AggSitePostList"

#通过分析网站源码可知每页的url信息
data = {"CategoryType":"SiteHome",
        "ParentCategoryId":0,
        "CategoryId":808,
        "PageIndex":idx+1,
        "TotalPostCount":4000,
        "ItemListActionName":"AggSitePostList"}

#requests模块获取网页信息
r = requests.get(url,data=data)

#判断网页状态码
# if r.status_code != 200:
#     raise Exception()

#bs4模块创建对象
soup = BeautifulSoup(r.text,"html.parser")

#指定class获取指定信息
post_items = soup.find_all("article",class_="post-item")
for post_item in post_items:
    link = post_item.find("a",class_="post-item-title")
    print(link["href"],link.get_text())
运行结果及报错内容

img

我的解答思路和尝试过的方法

打印了r.text发现无法访问https://www.cnblogs.com/AggSite/AggSitePostList,访问结果时415. UnsupportedMediaType
不知道怎么找到正确的url

我想要达到的结果

爬出1-200页的文章

  • 写回答

3条回答 默认 最新

      报告相同问题?

      相关推荐 更多相似问题

      问题事件

      • 系统已结题 8月30日
      • 已采纳回答 8月22日
      • 修改了问题 8月22日
      • 创建了问题 8月22日

      悬赏问题

      • ¥15 如何增加获取淘宝的数据订单
      • ¥15 fluent计算后处理中如何把质量分数和摩尔分数转化为体积分数
      • ¥20 asn1c编码问题,懂asn1的人很简单
      • ¥60 在排球比赛中,排球落于界限上时,人工判断存在一定的主观因素。利用图像处理的方法来计算排球落点相对界限中心位置,判断结果。
      • ¥15 使用vs2019开发的动态链路库在win7环境下使用有问题
      • ¥30 quartus prime画电路图,要发源文件和电路图每个模块批注,源程序和仿真结果
      • ¥15 MFC滚动条如何正确使用
      • ¥15 缓冲区算法求面积,基于文献
      • ¥50 电路PCB原理图设计AD19
      • ¥15 openstack 云平台搭建 创建实例错误