YvMoYvMo 2023-02-23 23:01 采纳率: 85%
浏览 12
已结题

Python爬虫技术用代理池爬取数据正常爬取到,单单用一个代理爬取则全是广告

用代理池爬取数据正常爬取到,单单用一个代理爬取则全是广告

一个代理爬取

import urllib.request
url = 'https://www.baidu.com/s?wd=ip'
header = {
    'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
}

#代理IP
proxies = {
     'http':'111.225.153.46:8089'
}
request = urllib.request.Request(url=url,headers=header)

#handler处理器
handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

respone = opener.open(request)

content  = respone.read().decode('utf-8')

with open(file='ipp.html',mode='w',encoding='utf-8') as fp:
    fp.write(content)


结果

img

img

img

代理池

import urllib.request
import random

url = 'https://cn.bing.com/search?q=ip'
header = {
    'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
}

#代理池
proxies_pool = [
    {'http':'211.97.2.196:9002'},
    {'http':'111.225.153.46:8089'}
]
request = urllib.request.Request(url=url,headers=header)

#从代理池里面随机抽取一个代理IP,我是选择跟上面一个代理IP一样的代理IP结果作为比较的
#即  'http':'111.225.153.46:8089'
proxies = random.choice(proxies_pool)

print(proxies)

handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

respone = opener.open(request)

content = respone.read().decode('utf-8')

with open(file='ip_pool.html',mode='w',encoding='utf-8') as fp:
    fp.write(content)


结果

img

  • 写回答

1条回答 默认 最新

  • ALittleHigh 2023-02-23 23:42
    关注

    两次的引擎不一样?一个百度,一个必应。
    我以前也做过类似的项目,百度反爬总是更猛,广告巨多

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 3月6日
  • 已采纳回答 2月26日
  • 创建了问题 2月23日

悬赏问题

  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测
  • ¥88 python部署量化回测异常问题