关于#python#的问题：httpx.gett爬取网站"

httpx.gett爬取网站"https://www.mouser.cn/c/semiconductors/memory-ics/dram/?pg="还是提示403，提取的内容提示“You don't have permission to access”，有什么解决办法吗？
代码如下：


import httpx
import random

headers_list = [
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
    'Opera/9.25 (Windows NT 5.1; U; en)',
    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
    "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
    "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "
]

baseurl = "https://www.mouser.cn/c/semiconductors/memory-ics/dram/?pg="  #要爬取的网页链接
url = baseurl
n_header = {'User-Agent':random.choice(headers_list)}    #随机header
request = httpx.get(url, headers=n_header,timeout=10)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

猿途纪优质创作者: 编程框架技术领域 2024-09-05 16:44

关注

你这个是被检测到了爬虫行为，推荐你使用一些专业的爬虫框架，模拟浏览器行为去爬取
安装 Selenium 和 WebDriver，用谷歌方式的就下载chromdriver

   from selenium import webdriver
   from selenium.webdriver.chrome.service import Service
   from selenium.webdriver.common.by import By
   from selenium.webdriver.common.keys import Keys
   from selenium.webdriver.chrome.options import Options
   import time

   # 设置 Chrome 选项
   chrome_options = Options()
   chrome_options.add_argument("--headless")  # 无头模式
   chrome_options.add_argument("--disable-gpu")

   # 启动 WebDriver
   service = Service(executable_path='path/to/chromedriver')  # 替换为实际路径
   driver = webdriver.Chrome(service=service, options=chrome_options)

   try:
       url = "https://www.mouser.cn/c/semiconductors/memory-ics/dram/"
       driver.get(url)

       # 等待页面加载完成
       time.sleep(3)

       # 获取页面内容
       page_source = driver.page_source
       print(page_source)

       # 进一步解析页面内容
       # 例如提取特定元素
       products = driver.find_elements(By.CSS_SELECTOR, 'div.product-item')
       for product in products:
           product_name = product.find_element(By.CSS_SELECTOR, 'h3.product-name').text
           product_price = product.find_element(By.CSS_SELECTOR, 'span.product-price').text
           print(f'Product Name: {product_name}, Price: {product_price}')

   finally:
       driver.quit()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

### 【Python网络编程】基于Httpx的高效网络请求库详解：同步与异步请求、HTTP/2支持及实战应用
2025-07-27 23:25

文中还通过实战案例展示了 httpx 在爬虫和 API 数据获取中的应用，并讨论了常见问题及其解决方案。最后，文章展望了 httpx 在未来的发展潜力，特别是在网络爬虫、微服务架构和 API 测试等领域的广泛应用。适合人群...
【Python】httpx 库：HTTP 客户端库（发送 HTTP 请求和处理响应）
2025-05-07 18:27

彬彬侠的博客 httpx 是一个现代化的 Python HTTP 客户端库，设计用于发送 HTTP 请求和处理响应。它支持同步和异步 API，兼容 requests 库的接口，同时提供更强大的功能，如 HTTP/2、连接池、流式响应和异步支持。httpx 适合构建高...
全面指南：HTTPX - 下一代Python HTTP客户端
2025-06-14 11:05

leo0308的博客 HTTPX 是一个功能齐全的Python HTTP客户端库，支持同步和异步API，基于标准库的http包构建。它是requests库的现代替代品，添加了对HTTP/2、连接池和异步请求等功能的原生支持。HTTPX 是一个功能强大、现代化的HTTP...
Python项目内网环境pdm install超时httpx.ReadTimeout: timed out
2024-10-23 23:06

waketzheng的博客场景：内网环境，阿里源和清华源都不可以达，...然后使用pdm install项目依赖却报错了，加-v参数后，显示错误详情是httpx.ReadTimeout: timed out。2. 安装依赖（大致相当于执行pdm install）1. 创建和激活虚拟环境。
【python】从入门到精通：httpx，Python网络请求的新宠
2025-07-26 20:28

大雨淅淅的博客通过对 httpx 库的深入学习，我们不难发现它在 Python 网络编程领域的独特魅力与强大实力。httpx 以其简洁一致的 API 设计，让熟悉 requests 库的开发者能够轻松上手，无缝切换，大大降低了学习成本。同时，它支持...
Python httpx详解：新一代HTTP客户端的极致体验
2025-07-04 14:01

detayun的博客本文介绍了新一代Python HTTP客户端库httpx的核心特性及使用场景。httpx兼容requests的API，同时提供异步支持、HTTP/2协议、连接池等现代特性。文章详细解析了httpx的同步/异步双模式、HTTP/2配置、会话管理、重试...
Python爬虫利器：`httpx`常用方法、上下文处理、异步请求及与`requests`的对比
2024-07-31 12:59

Switch616的博客 httpx作为现代化的HTTP客户端库，提供了对同步和异步请求的支持，灵活的上下文...通过对常用方法、上下文处理和异步请求的解析，以及与requests的对比，希望大家能够更好地理解并应用httpx，在实际开发中发挥它的优势！
Scrapy与分布式开发(2.1.2)：python常用网络请求库httpx
2024-02-27 16:34

九月镇灵将的博客 `httpx` 是一个用于发送 HTTP 请求的 Python 库，它提供了简单易用的 API，支持同步和异步请求，并且具有出色的性能和灵活性。`httpx` 是 `requests` 的一个现代替代品，它使用 `httpcore` 作为底层传输层，支持 ...
Python中使用HTTPX：构建高效异步HTTP客户端
2024-08-16 10:08

傻啦嘿哟的博客 httpx作为一款现代化的Python HTTP客户端库，以其对异步编程的原生支持、灵活的API设计以及强大的功能特性，为开发者们提供了更加高效、便捷的HTTP请求方式。httpx是一个功能强大的Python HTTP客户端库，它提供了...
Python发送digest认证的请求：requests.auth.HTTPDigestAuth/httpx.DigestAuth
2024-04-28 12:32

waketzheng的博客 Python之digest认证：一、同步版(pip install requests)二、异步协程版(pip install httpx)
Python库 | httpx-0.7.1.tar.gz
2022-05-16 17:16

资源分类：Python库所属语言：Python 资源全名：httpx-0.7.1.tar.gz 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059
python | httpx，一个超酷的 Python 库！
2025-05-31 13:33

双木的木的博客 httpx是一个现代化的Python HTTP客户端库，融合了同步和异步请求功能。作为requests库的精神继承者，它保留类似API设计，同时原生支持async/await语法，特别适合高并发场景。主要特性包括：HTTP/2支持、连接池管理、...
突破Python HTTP瓶颈：HTTPX连接池与资源管理实战指南
2025-09-30 04:04

万宁谨Magnus的博客作为新一代Python HTTP客户端，HTTPX提供了强大的连接池和资源控制机制，但大多数开发者只用到了基础功能。本文将带你深入理解连接限制的底层原理，掌握**连接池配置**、**超时策略**和**异常处理**的实战技巧，让你...
在 Python 中使用 HTTPX 进行网页抓取
2025-05-09 07:45

Bright Data的博客 HTTPX 默认的User-Agent此标识很可能会让目标网站识别到你的请求是自动化脚本，从而导致封禁。可以将User-Agent# 定义一个自定义的 User-AgentWin64;# 携带自定义 User-Agent 发起请求# 处理响应...
httpx.InvalidURL: Invalid port
2023-04-26 14:32

只会git clone的程序员的博客加了一行==url = url.replace(“::”, “:”)==就行了。httpx包的bug…
解锁Python异步请求新范式：HTTPX客户端架构全解析
2025-09-30 03:34

尤迅兰Livia的博客你还在为Python异步HTTP请求的复杂架构困扰？面对层出不穷的网络库和性能瓶颈，如何选择一个既高效又易用的解决方案？本文将深度剖析HTTPX异步客户端的设计原理，从核心组件到实战应用，帮你轻松掌握高性能网络请求...
Python爬虫异步IO实战：aiohttp与httpx性能对比.pdf
2025-04-20 15:41

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
Python爬虫实战：使用最新技术爬取知乎热门问题
2025-07-28 09:32

Python爬虫项目的博客在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为国内最大的问答社区，知乎汇聚了大量优质内容和热点话题，对于...基于HTTPX的异步爬取使用Playwright处理动态内容多种反反爬技术的集成多种数据存储方案。
探索HTTPx：Python中的HTTP客户端新选择
2024-07-28 22:56

嘎啦AGI实验室的博客 httpx是一个快速、功能丰富的HTTP客户端库，它支持同步和异步请求，能够处理HTTP/1.1和HTTP/2协议。它提供了简洁的API和强大的功能，如连接池、超时、...记住，当遇到问题时，查阅文档和社区支持是解决问题的好方法。
httpx.AsyncClient()的stream方法设置timeout超时
2025-03-23 18:33

Maybe_9527的博客 httpx.AsyncClient()的stream方法设置timeout超时配置
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月31日

关于#python#的问题：httpx.gett爬取网站"

1条回答 默认 最新

问题事件

1条回答默认最新