Python爬虫技术用代理池爬取数据正常爬取到，单单用一个代理爬取则全是广告

用代理池爬取数据正常爬取到，单单用一个代理爬取则全是广告

一个代理爬取

import urllib.request
url = 'https://www.baidu.com/s?wd=ip'
header = {
    'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
}

#代理IP
proxies = {
     'http':'111.225.153.46:8089'
}
request = urllib.request.Request(url=url,headers=header)

#handler处理器
handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

respone = opener.open(request)

content  = respone.read().decode('utf-8')

with open(file='ipp.html',mode='w',encoding='utf-8') as fp:
    fp.write(content)

结果

代理池

import urllib.request
import random

url = 'https://cn.bing.com/search?q=ip'
header = {
    'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
}

#代理池
proxies_pool = [
    {'http':'211.97.2.196:9002'},
    {'http':'111.225.153.46:8089'}
]
request = urllib.request.Request(url=url,headers=header)

#从代理池里面随机抽取一个代理IP，我是选择跟上面一个代理IP一样的代理IP结果作为比较的
#即  'http':'111.225.153.46:8089'
proxies = random.choice(proxies_pool)

print(proxies)

handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

respone = opener.open(request)

content = respone.read().decode('utf-8')

with open(file='ip_pool.html',mode='w',encoding='utf-8') as fp:
    fp.write(content)

结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ALittleHigh 2023-02-23 23:42
关注
两次的引擎不一样？一个百度，一个必应。
我以前也做过类似的项目，百度反爬总是更猛，广告巨多

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于python爬虫技术编程写的进出口企业爬虫系统，实现全球海关、关单、外贸数据的爬取
2024-10-25 10:47

代理IP池是指预先准备一系列不同的IP地址，爬虫在遇到IP被封或者请求被拒绝时，可以切换到另一个IP地址继续进行数据爬取。这种技术有效地解决了爬虫在高频率访问网站时可能遇到的封禁问题，保证了数据爬取的连续性和...
用python+selenium+IP代理池多线程爬取letpub网站详情页数据。可以爬取期刊名字、_letpub.zip
2024-09-12 10:07

IP代理池通过维护一个代理服务器的列表，使得爬虫程序可以从中轮换使用不同的IP地址进行请求，这样就大大降低了被封禁的风险，同时也提高了数据的采集范围和质量。多线程技术是本次项目的核心，它允许程序同时运行...
新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip
2023-08-24 19:15

在本资源中，我们主要探讨的是如何利用Python编程语言实现一个针对新浪微博的网络爬虫，目的是抓取微博数据，...这个项目对于想要学习Python爬虫技术，特别是对社交媒体数据感兴趣的开发者来说，是一个很好的实践案例。
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
新浪微博爬虫，用python爬取新浪微博数据.zip
2024-02-03 20:43

【描述】：“此项目是关于如何使用Python编程语言构建一个爬虫，以抓取并分析新浪微博上的数据。爬虫技术在大数据时代对于获取社交媒体信息、进行网络数据分析具有重要意义。通过这个项目，你可以学习到如何利用...
Python爬虫项目之爬取知乎数据.zip
2024-05-30 06:00

本项目专注于使用Python爬虫来获取知乎网站上的数据。知乎是中国知名的问答社区，包含丰富的知识和观点，是研究用户行为、热门话题以及网络趋势的理想来源。 Python作为一门强大的脚本语言，因其简洁的语法和丰富的...
Python爬虫实战：使用最新技术爬取网易云音乐歌单数据
2025-07-08 16:13

Python爬虫项目的博客本文将详细介绍如何使用Python最新技术栈（包括requests-html、playwright和异步技术）爬取网易云音乐歌单数据。我们将从环境配置开始，逐步讲解爬虫的实现过程，包括...希望这篇教程能帮助你掌握现代Python爬虫技术。
不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据.docx
2022-06-07 16:50

### 不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据 #### 知识点概述本文旨在探讨如何高效地学会使用Python进行大规模网络数据爬取，并在此基础上提炼出若干关键知识点。 #### 一、基础知识：Python包与...
Python爬虫爬取漫画
2024-11-22 16:22

在当今的网络时代，信息获取变得越来越便捷，其中，利用Python爬虫技术爬取漫画资源已经成为许多爱好者和研究者经常进行的活动。Python作为一门编程语言，其简洁明了的语法和强大的社区支持，使得它在数据爬取领域...
用python实现的一个自动爬取文献的小爬虫.zip
2022-05-21 17:47

在Python编程领域，爬虫是数据获取的重要工具，尤其在学术研究中，自动爬取文献可以极大地提高效率。...通过深入研究项目代码，可以加深对Python爬虫技术的理解，并为自己的数据获取需求定制类似工具。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月23日

Python爬虫技术用代理池爬取数据正常爬取到，单单用一个代理爬取则全是广告

1条回答 默认 最新

问题事件

1条回答默认最新