爬东方财富网遇到的ip代理问题

我使用快代理的限时6小时的免费ip去代理请求爬虫

我测试过先对

http://icanhazip.com/

进行访问，返回的ip信息确实是代理ip，而非本地ip。

但是随后对东方财富网进行爬虫，没过一会还是被封了，封的还是我的本地ip，然后我继续用代理ip请求返回的结果又是变成了403。

它到底是怎么获取到我的本地ip的？

这是一段重点代码：

import random
import requests
from bs4 import BeautifulSoup

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}

response = requests.get(
    '快代理的api链接',
    headers=headers, timeout=1)  #
if response.status_code == 200:
    pp = response.text.split('\r\n')

www = random.choice(pp)
req2 = requests.get('https://caifuhao.eastmoney.com/news/20230827185253791253180',
                    headers=headers, proxies={'http': 'http://'+www})

ipconfig = requests.get('http://icanhazip.com/',
                    headers=headers, proxies={'http': 'http://'+www})

print(pp)
print(www)
print(ipconfig.status_code,ipconfig.text)
print(req2)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-08-27 22:05
关注
【相关推荐】

这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7403982
你也可以参考下这篇文章：IP划分子网的实训案例：某单位申请了一个IP为218.197.17.0，该单位需要建设四个网络，分别用于管理四个部门，要求分配各主机数量相同，试对该单位进行规划并配置。
您还可以看一下张先凤老师的《计算机体系结构—网络篇3、4》之IP分类与组成、网络标识、子网掩码、私网组建等课程中的计算网段所允许分配的ip数量小节, 巩固相关知识点
除此之外, 这篇博客: 【爬虫】IP代理池的总结、实现与维护，IP代理池小工具（小框架），自建代理ip池中的 使用教程 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

此处以某网站为例，如图，需配置网站的地址、抓取的页数，然后再配置需抓取内容的正则表达式：

下面举例解释一下如何分析出正则表达式：

如上图，可看到该代理网站的免费代理是一个表格，我们在网页上点击鼠标右键，选择“查看网页源代码”，然后就可以到下图的源码：

很明显的可以看出，整个表格的内容是由<tbody> </tbody>标签包裹着的，每行代理数据是由<tr> </tr>标签包裹着的，而每一列数据是由<td > </td>包裹着的，于是可以写出如下正则表达式：

如果没学过正则表达式，建议先去看一下正则表达式的基本语法（很快就能学会）。
ip_reg和port_reg可以设置成一样，因为ip之后的下一列肯定是端口号port，再匹配完ip之后，将ip那一部分截取掉，再匹配端口号，这样就比较方便。而代理类型所在列是不固定的，所以我们不能使用与端口号一样的处理方式。
先分析源码，发现代理类型所在列都是在'代理IP</td>'这个字符串之后的，所以可以将代理类型的匹配正则表达式写成
/IP<\/td>[ |\t|\r|\n]*<td *>(.*?)<\/td>/s

配置好之后就可以直接运行该代理池小工具了，直接运行 " operateProxyPool.php " 这个文件就行。

程序运行结束之后，文件夹下会生成一个“proxyPool.dat”文件，该文件就是代理池。
当然，作为代理池肯定需要持续更新的，所以你可以根据需要改进本工具的代码，让其一直运行，不断更新“proxyPool.dat”里的数据。

还有一点是如果需要提高更新效率，可以将改成多线程模式。个人认为当前的更新效率已经足够大多数人使用了。

附上抓取两个网站的例子：

每个网站都是一页15个代理，我们各抓两页，结果应该会抓取到60个代理数据

配置如下：

抓取结果如下：

使用格式化工具格式化之后：

可以看到刚好60个，说明抓取代理数据成功，没有漏掉。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬虫的ip代理设置问题 python 爬虫
2023-04-06 07:18

回答 4 已采纳引用新必应根据您提供的代码，可能是代理IP出现了问题导致获取到的内容不是百度的。可能的原因有以下几个：代理IP失效或过期。如果您使用的代理IP已经失效或过期，可能会导致请求被重定向到其他网站，从而得
python 爬虫使用代理 ip 访问网站遇到的问题 python
2021-03-28 15:50

回答 2 已采纳把https://去掉试一下看： PROXY = "111...：4221" chrome_opt = WebDriver.ChromeOptions() chrome_opt.add_argume
爬虫怎么使用代理ip html5 python 开发语言
2022-07-03 19:47

回答 2 已采纳直接上代码，有报错的话可以自行调试一下，逻辑很简单不难的： import requests from selenium import webdriver def conc_ip(url):
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客使用selenium库爬取东方财富网站股票数据信息示例代码和过程说明安装Selenium库：首先确保已经安装了Selenium库和对应的浏览器驱动，例如Chrome驱动（Chrome WebDriver）。 pip install selenium 导入必要的库和...
【Python】爬虫Ip代理问题 python
2021-09-06 17:15

回答 4 已采纳那你至少需要研究一下多线程的技术，否则你主线程已经阻塞住了，写什么代码也不执行啊
关于爬虫使用代理之后仍显示本机IP的问题多彩生活
2021-03-05 19:58

回答 1 已采纳代理写错了，试试这样写 proxy = { 'http': 'http://36.7.252.125:45113' }
python多线程下载+IP代理问题 python 爬虫
2023-02-08 13:16

回答 3 已采纳十分感谢，我已经解决问题了，原因是部分ip代理无效导致下载的文件损坏
零基础学Python网络爬虫案例实战全流程详解（入门与提高篇）
2024-01-08 12:18

怪我冷i的博客在爬虫任务中让人烦恼的就是遇到网站的反爬机制，因此，第8章讲解了应对反爬机制的常用手段—IP代理的原理和使用方法，并以爬取公众号文章为例对IP代理进行了实战演练。本书对于编程零基础的读者来说非常友好，...
python爬虫如何设置代理IP python 网络网络协议
2022-05-07 09:18

回答 2 已采纳 request中的参数proxies
C语言网络编程，如何更改自己编的程序的本地ip？ c语言 tcp/ip 网络
2022-03-02 15:41

回答 1 已采纳可以用这个表示：INADDR_ANY，服务器端用着个，也就是你服务器72行的代码改成（我记得0.0.0.0也可以，你试试）serv_addr2.sin_addr.s_addr = htonl(INAD
TCP/IP网络编程与应用程序 tcp/ip 网络网络协议
2023-02-22 16:39

回答 3 已采纳基于Monster 组和GPT的调写：第一个：UDP包大小的选择需要根据具体场景来确定，下面是一些可能影响包大小选择的因素：网络延迟：在高延迟网络中，发送大包会增加数据包被分割和重新组装的风险，因此
Python网络爬虫与信息提取
2019-05-24 22:04

一壶浊酒伴余生的博客 host:合法的Internet主机域名或IP地址 port：端口号，缺省端口为80 path：请求资源的路径操作方法说明 GET 请求获取URL位置的资源 HEAD 请求获取URl位置资源的响应消息报告...
selenium代理ip问题。 python selenium
2021-07-22 16:34

回答 1 已采纳代码没有问题，代理可能不稳定，建议找一个高质量的代理IP再试一下如有帮助还请及时采纳，追问可关注公众号：测试开发研习社
如何高效采集股吧评论？三步搞定，快速掌握
2024-08-09 08:38

Luca_kill的博客本文将揭示高效抓取东方财富网股吧评论的实战技巧，无需复杂编程，三步即可轻松掌握，助您快速洞悉股市舆情，抢占投资先机。
月薪从5K到13.2W，白帽子黑客到底有多赚钱？
2024-10-18 16:54

码农x马马的博客 (CNSRC) https://sec.cainiao.com/ DHgate (DHSRC) http://dhsrc.dhgate.com/ 大疆 (DJISRC) https://security.dji.com/ 滴滴出行 (DSRC) https://sec.didichuxing.com/ 东方财富 (EMSRC) ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月27日

悬赏问题

¥15 ansys fluent计算闪退
¥15 有关wireshark抓包的问题
¥15 需要写计算过程，不要写代码，求解答，数据都在图上
¥15 向数据表用newid方式插入GUID问题
¥15 multisim电路设计
¥20 用keil，写代码解决两个问题，用库函数
¥50 ID中开关量采样信号通道、以及程序流程的设计
¥15 U-Mamba/nnunetv2固定随机数种子
¥15 vba使用jmail发送邮件正文里面怎么加图片
¥15 vb6.0如何向数据库中添加自动生成的字段数据。

爬东方财富网遇到的ip代理问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新