微信爬虫失败原因:由于计算机积极拒绝

新手学了微信文章爬虫
参考了前辈们的代码，确不能成功，求助各位大佬！
如下:
# 搜狗微信搜索_订阅号及文章内容独家收录，一搜即达微信公众号，精彩内容独家收录，一搜即达 http://weixin.sogou.com/
import re
import urllib.request
import time
import urllib.error
import urllib.request

import scipy
#自定义函数，功能为使用代理服务器爬一个网址
def use_proxy(proxy_addr,url):
#建立异常处理机制
try:
req=urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
proxy= urllib.request.ProxyHandler({'http':proxy_addr})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
data = urllib.request.urlopen(req).read()
return data
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
#若为URLError异常，延时10秒执行
time.sleep(10)
except Exception as e:
print("exception:"+str(e))
#若为Exception异常，延时1秒执行
time.sleep(1)

#设置关键词
key="Python"
#设置代理服务器，该代理服务器有可能失效，读者需要换成新的有效代理服务器
proxy="120.76.231.27:3128"
#爬前10页
for i in range(1,10):
key=urllib.request.quote(key)
thispageurl= ' ' key '的相关微信公众号文章 – 搜狗微信搜索 http://weixin.sogou.com/weixin?query=%27+key+%27&_sug_type_=&sut=4983&lkt=10%2C1527762297236%2C1527762302210&s_from=input&_sug_=y&type=2&sst0=1527762302313&page=%27+str(i)+%27&ie=utf8&w=01019900&dr=1%27
print(thispageurl)
thispagedata=use_proxy(proxy,thispageurl)
print(len(str(thispagedata)))

pat1='<a href="(.*?)"'
rs1=re.compile(pat1,re.S).findall(str(thispagedata))
if(len(rs1)==0):
    print("此次（"+str(i)+"页）没成功")
    continue
for  j in range(0,len(rs1)):
    thisurl=rs1[j]
    thisurl=thisurl.replace("amp;","")
    print(thisurl)
    file="D:/Python学习/第"+str(i)+"页第"+str(j)+"篇文章.html"
    thisdata=use_proxy(proxy,thisurl)
    try:
        fh=open(file,"wb")
        fh.write(thisdata)
        fh.close()
        print("第"+str(i)+"页第"+str(j)+"篇文章成功")
    except Exception as e:
        print(e)
        print("第"+str(i)+"页第"+str(j)+"篇文章失败")

出现以下错误:

[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
此次（1页）没成功
[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
此次（2页）没成功
[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
自己尝试解决方法:
1.换了数个代理ip——还是失败
2.尝试允许应用通过防火墙——还是不行
3.加上decode
data = urllib.request.urlopen(req).read().decode("utf-8", "ignore")
还是失败

求助各位大佬

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-08-26 23:07
关注
问题是在这句，proxy= urllib.request.ProxyHandler({'http':proxy_addr})，设置代理语句写法错误，改写成如下即可：

proxy= urllib.request.ProxyHandler({'http://':proxy_addr})

如对你有帮助，请点击我回答的右上方采纳按钮给予采纳。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

微信爬虫失败原因:由于计算机积极拒绝 python 有问必答
2021-08-26 21:59

回答 2 已采纳问题是在这句，proxy= urllib.request.ProxyHandler({'http':proxy_addr})，设置代理语句写法错误，改写成如下即可： proxy= urllib.req
python或爬虫如何实现（微信同意授权）？ python 微信公众平台微信开放平台
2019-07-29 12:27

回答 1 已采纳这个code是微信生成的，而且只能是使用一次就失效，为了就是从后台换取userid跟session_key，当过期之后会再次调用前端代码从微信那边获得code再更新，目前应该是模拟不了，8274203
python 爬虫驱动知乎微信登录点击不了 python selenium 爬虫
2022-02-12 16:41

回答 2 已采纳你对象错了，driver.get(url) 没有返回值，直接用driver就好了 # driver = webdriver.Edge(driver_path) # url = xxx
Python爬虫源码：微信公众号单页多音频MP3 批量采集提取保存音频文件
2022-03-20 10:46

现在微信公众号一篇文章可以上传最多10音频，公众号音频怎么提取？我写的这段源码就可以实现了：输入页面地址、输入文件保存目录位置，运行后自动以标题名自动创建目录，自动批量下载页面中的音频，音频保存在该子...
怎么监控微信小程序上的数据变动，并设置提醒？ python 微信小程序爬虫
2021-09-30 10:23

回答 3 已采纳这种你直接采用微信小程序的：【订阅消息】(https://developers.weixin.qq.com/miniprogram/dev/api/open-api/subscribe-message
爬虫爬回“您操作太频繁,请稍后再访问”怎么解决 python 爬虫
2021-08-23 23:05

回答 1 已采纳用代理池找一堆免费代理ip,高匿级别的,每次爬取的时候轮询ip池ps.不建议爬取频率太高,真的把目标网站爬崩了要负法律责任的有帮助望采纳
catchWechat:微信爬虫,微信采集
2021-05-08 18:22

抓取微信公众号文章（仅用做学习交流用途！！！） pre：没有用框架，直接clone 就可以用基于 python 2.7 。使用3的话，根据 error 自行替换一下包即可 catch_allList.py ：抓取单个指定公众号url :grinning_...
爬虫爬到的新闻数据怎么让小程序展现出来？ python 后端爬虫
2022-03-27 23:50

回答 3 已采纳两种方案：实时抓取显示：由于你使用的是云开发技术，可以使用nodejs技术实现爬虫，直接将爬取的过程使用nodejs封装成一个云函数放上去运行，这样也可以省去后端服务器，我的一个菜谱小程序就是这样做
关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
爬虫中MySQL存储pymysql.connect报错 mysql python 爬虫
2021-08-22 21:56

回答 2 已采纳 conn = pymysql.connect(host="localhost", db="test",
微信公众号python爬虫程序
2023-11-20 22:03

这是一个用于在微信公众号平台上进行内容抓取的Python爬虫程序。通过该程序，用户可以自动从微信公众号文章中提取文本、图片、链接等信息，实现批量获取和分析微信文章内容的目的。该爬虫程序主要利用Python中的...
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
python3简单实现微信爬虫
2020-09-22 06:42

我们可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。
Python 微信爬虫完整实例【单线程与多线程】
2020-09-19 03:32

主要介绍了Python 微信爬虫,结合完整实例形式分析了Python基于单线程与多线程模式爬取微信信息相关操作技巧,需要的朋友可以参考下
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月26日

悬赏问题

¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测

微信爬虫失败原因:由于计算机积极拒绝

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新