微信爬虫失败原因:由于计算机积极拒绝

新手学了微信文章爬虫
参考了前辈们的代码，确不能成功，求助各位大佬！
如下:
# 搜狗微信搜索_订阅号及文章内容独家收录，一搜即达微信公众号，精彩内容独家收录，一搜即达 http://weixin.sogou.com/
import re
import urllib.request
import time
import urllib.error
import urllib.request

import scipy
#自定义函数，功能为使用代理服务器爬一个网址
def use_proxy(proxy_addr,url):
#建立异常处理机制
try:
req=urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
proxy= urllib.request.ProxyHandler({'http':proxy_addr})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
data = urllib.request.urlopen(req).read()
return data
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
#若为URLError异常，延时10秒执行
time.sleep(10)
except Exception as e:
print("exception:"+str(e))
#若为Exception异常，延时1秒执行
time.sleep(1)

#设置关键词
key="Python"
#设置代理服务器，该代理服务器有可能失效，读者需要换成新的有效代理服务器
proxy="120.76.231.27:3128"
#爬前10页
for i in range(1,10):
key=urllib.request.quote(key)
thispageurl= ' ' key '的相关微信公众号文章 – 搜狗微信搜索 http://weixin.sogou.com/weixin?query=%27+key+%27&_sug_type_=&sut=4983&lkt=10%2C1527762297236%2C1527762302210&s_from=input&_sug_=y&type=2&sst0=1527762302313&page=%27+str(i)+%27&ie=utf8&w=01019900&dr=1%27
print(thispageurl)
thispagedata=use_proxy(proxy,thispageurl)
print(len(str(thispagedata)))

pat1='<a href="(.*?)"'
rs1=re.compile(pat1,re.S).findall(str(thispagedata))
if(len(rs1)==0):
    print("此次（"+str(i)+"页）没成功")
    continue
for  j in range(0,len(rs1)):
    thisurl=rs1[j]
    thisurl=thisurl.replace("amp;","")
    print(thisurl)
    file="D:/Python学习/第"+str(i)+"页第"+str(j)+"篇文章.html"
    thisdata=use_proxy(proxy,thisurl)
    try:
        fh=open(file,"wb")
        fh.write(thisdata)
        fh.close()
        print("第"+str(i)+"页第"+str(j)+"篇文章成功")
    except Exception as e:
        print(e)
        print("第"+str(i)+"页第"+str(j)+"篇文章失败")

出现以下错误:

[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
此次（1页）没成功
[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
此次（2页）没成功
[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
4
自己尝试解决方法:
1.换了数个代理ip——还是失败
2.尝试允许应用通过防火墙——还是不行
3.加上decode
data = urllib.request.urlopen(req).read().decode("utf-8", "ignore")
还是失败

求助各位大佬

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-08-26 23:07
关注
问题是在这句，proxy= urllib.request.ProxyHandler({'http':proxy_addr})，设置代理语句写法错误，改写成如下即可：

proxy= urllib.request.ProxyHandler({'http://':proxy_addr})

如对你有帮助，请点击我回答的右上方采纳按钮给予采纳。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python或爬虫如何实现（微信同意授权）？ python 微信公众平台微信开放平台
2019-07-29 12:27

回答 2 已采纳这个code是微信生成的，而且只能是使用一次就失效，为了就是从后台换取userid跟session_key，当过期之后会再次调用前端代码从微信那边获得code再更新，目前应该是模拟不了，8274203
python 爬虫驱动知乎微信登录点击不了 python selenium 爬虫
2022-02-12 16:41

回答 2 已采纳你对象错了，driver.get(url) 没有返回值，直接用driver就好了 # driver = webdriver.Edge(driver_path) # url = xxx
Python爬虫系统：搜狗微信爬虫 WechatSogou-master.zip
2024-05-10 13:55

Python爬虫系统：搜狗微信爬虫 WechatSogou-master 搜狗微信爬虫 WechatSogou-master 是一个基于 Python 编写的强大的微信公众号爬虫系统，旨在提供一种便捷而高效的方式来获取微信公众号的文章内容和相关信息。该...
怎么监控微信小程序上的数据变动，并设置提醒？ python 微信小程序爬虫
2021-09-30 10:23

回答 3 已采纳这种你直接采用微信小程序的：【订阅消息】(https://developers.weixin.qq.com/miniprogram/dev/api/open-api/subscribe-message
爬虫爬回“您操作太频繁,请稍后再访问”怎么解决 python 爬虫
2021-08-23 23:05

回答 1 已采纳用代理池找一堆免费代理ip,高匿级别的,每次爬取的时候轮询ip池ps.不建议爬取频率太高,真的把目标网站爬崩了要负法律责任的有帮助望采纳
爬虫爬到的新闻数据怎么让小程序展现出来？ python 后端爬虫
2022-03-27 23:50

回答 3 已采纳两种方案：实时抓取显示：由于你使用的是云开发技术，可以使用nodejs技术实现爬虫，直接将爬取的过程使用nodejs封装成一个云函数放上去运行，这样也可以省去后端服务器，我的一个菜谱小程序就是这样做
Python爬虫源码：微信公众号单页多音频MP3 批量采集提取保存音频文件
2022-03-20 10:46

现在微信公众号一篇文章可以上传最多10音频，公众号音频怎么提取？我写的这段源码就可以实现了：输入页面地址、输入文件保存目录位置，运行后自动以标题名自动创建目录，自动批量下载页面中的音频，音频保存在该子...
关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
爬虫中MySQL存储pymysql.connect报错 mysql python 爬虫
2021-08-22 21:56

回答 2 已采纳 conn = pymysql.connect(host="localhost", db="test",
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
catchWechat:微信爬虫,微信采集
2021-05-08 18:22

抓取微信公众号文章（仅用做学习交流用途！！！） pre：没有用框架，直接clone 就可以用基于 python 2.7 。使用3的话，根据 error 自行替换一下包即可 catch_allList.py ：抓取单个指定公众号url :grinning_...
基于搜狗微信搜索的微信公众号爬虫接口Python设计源码
2024-10-09 10:17

该项目是一个基于Python的微信公众号爬虫接口设计源码，包含72个文件，涵盖20个Python脚本、10个HTML页面、6个Markdown文档、6个PNG图片、4个CSS样式表、4个JavaScript脚本、3个JPG图片、2个YAML配置文件、2个...
基于搜狗微信搜索的微信公众号爬虫Python设计源码
2024-10-05 17:53

该项目为基于搜狗微信搜索的微信公众号爬虫Python设计源码，整体包含69个文件，涵盖20个Python脚本、10个HTML文件、6个PNG图片、5个Markdown文件、4个CSS样式表、4个JavaScript脚本、2个YAML文件、2个...
基于Python和itchat的每日暖心话自动发送微信爬虫设计源码
2024-10-02 19:08

该项目是一款基于Python和itchat库的微信爬虫，旨在每日自动向多女友发送暖心话。该源码集包含68个文件，主要包括54个Python脚本文件、4个日志文件、2个Markdown文件以及若干配置、忽略和文档文件。该项目适用于需要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月26日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

微信爬虫失败原因:由于计算机积极拒绝

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新