python爬取需要登录的网站并获取下载链接进行下载

import requests
from lxml import html
import sys
from you_get import common as you_get
import urllib.request

import urllib.request as urllib2

import re
from urllib import parse
import os
import sys
from you_get import common as you_get #导入you-get库
import urllib
from urllib import request
import requests
from bs4 import BeautifulSoup
import json
from bs4 import BeautifulSoup

from six.moves import urllib

#从登录页面携带cookie进行登录
import urllib.request
url1 = "http://club.dearedu.com/member/index.php"
headers = {'User-Agent': "Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1",
'cookie': "__jsluid_h=8e388e30d16bb1e10f73865f9a77e413; UM_distinctid=16bbf9691e24c3-0a6e0f5e007e47-3c604504-1fa400-16bbf9691e33c2; guid=42770979.3940818425674125000.1562312902694.094; Hm_lvt_482d1a083f7aef77357d5a920988d5ac=1562287444,1562334791,1563864719; PHPSESSID=gu3663kt6ao1gh67nbh6d9cqg0; DedeUserID=9058331; DedeUserIDckMd5=63c93468fbe47b82; DedeLoginTime=1563865398; DedeLoginTime__ckMd5=53ce53c6df5208fd; UCenter_username=llabc199262; UCenter_uid=9056889; Example_auth=8b2eRflplt%2FzXmqHdAmQ4QwVNJ14wO1lJNnWLUr9EsZnXAxyIMu%2Fcdi8wB%2B5Zdf%2B; monitor_count=2; Hm_lpvt_482d1a083f7aef77357d5a920988d5ac=1563865400"}
req = urllib.request.Request(url=url1, headers=headers)
response = urllib.request.urlopen(req)
with open(r"D:\SW file\pycharm file\400集\爬虫\教育文档\第二教育网\a.html", 'w', encoding='utf-8') as f:
f.write(response.read().decode('gbk'))

#登录成功后进入相关页面，爬取页面中的下载地址并进行下载
def bCrawler(url):
req = urllib.request.Request(url=url, headers=headers) # 拿出的是字典
response1 = urllib.request.urlopen(req)
# HtmlStr = response1.read().encode('utf-8', 'ignore').replace(u'\0xa3', u'')
HtmlStr = response1.read().decode('utf-8', 'ignore').replace(u'\0xa3', u'')
# print(HtmlStr)
pat = r'zid=(.*?)&price=0" class="layui-btn">'
re_img = re.compile(pat,re.S)
bList = re_img.findall(HtmlStr)
print(bList)
print(len(bList))

for bUrl in bList:
    url5 = "http://club.dearedu.com/member/down_gb_iweike.php?zid=" + bUrl + "&price=0"
    print(url5)
    f1 = requests.get(url5,headers=headers)
    with open(r"D:\SW file\pycharm file\400集\爬虫\教育文档\第二教育网\a.doc","a+") as f:    #encoding="utf-8"
        f.write(f1.content)

url = r"http://s.dearedu.com/?page=2&rows=10&attr_free=1"
for i in range(556, 12204):
url = "http://s.dearedu.com/?page=" + str(i) + "&rows=10&attr_free=1"
print(url)
print(i)
bCrawler(url)

此代码目前存在的问题：登陆成功，下载链接也爬取了，但是下载不了，下载的时候用的f1 = requests.get(url5,headers=headers)，也已经带上cookie了，不知道为什么不行，请各位帮忙想想办法，悬赏好说

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2019-07-24 23:49
关注
https://blog.csdn.net/Chaos_Happy/article/details/88389197

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
Python爬取APP下载链接的实现方法
2020-09-21 12:42

主要实现的是批量下载安卓APP。显然用手点是不科学的。于是尝试用Python写了一个半...所谓半自动化，就是把下载链接批量抓取下来，然后一起贴到迅雷里进行下载，这样可以快速批量下载。有需要的朋友们可以一起看看吧。
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
python爬取电影天堂链接并调用迅雷下载
2019-07-26 15:35

使用python获取电影天堂所有资源链接地址和下载地址，并调用迅雷下载
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬取证监会行政监管措施遭遇 IndexError: list index out of range python 有问必答爬虫
2022-01-25 13:06

回答 3 已采纳 http://www.csrc.gov.cn/searchList/58959eb1bd68458088cac63f46a5fa40?_isAgg=true&_isJson=true&_pageSiz
怎么用python爬取network里面网页代码没有的网址，不用手动查看的 python
2022-02-19 08:16

回答 3 已采纳 import datetime import random import time import re from selenium.webdriver.chrome.options import O
用python爬取网站中的文件并下载
2022-12-19 12:46

鄧寜的博客下面是使用 Python 爬取网站中的文件并下载的一些步骤：首先，使用 Python 的 requests 库发出 HTTP 请求来获取网站的 HTML 源代码。然后，使用 Python 的 BeautifulSoup 库来解析 HTML 源代码，找到你想要下载...
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
用python爬取需要登录的网站
2019-07-28 02:20

nicole226的博客如何爬取需要登录的网站创建一个session用fiddler抓取请求参数输入模拟浏览器发起请求获取userkey备用登录后，开心地请求该网站的其他页面假如要爬取某个网页，但是该网页要登录后才能进行访问，刚好登录的时候不...
python电影爬取并下载_python爬取电影并下载
2020-12-06 00:59

weixin_39928686的博客对于一个宅男，喜欢看电影，每次打开电影网站，各种弹出的广告，很是麻烦，还是要自己去复制下载链接到迅雷上粘贴并下载，这个过程中还有选择困难症;这一系列的动作让人甚是不爽，不如有下好的，点着看就好了;作为一...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

python爬取需要登录的网站并获取下载链接进行下载

import urllib.request as urllib2

此代码目前存在的问题：登陆成功，下载链接也爬取了，但是下载不了，下载的时候用的f1 = requests.get(url5,headers=headers)，也已经带上cookie了，不知道为什么不行，请各位帮忙想想办法，悬赏好说

1条回答 默认 最新

悬赏问题

1条回答默认最新