python 爬取网站分页不能得到真正页面，提示该问路径不合法，如何解决？

在用python requests 方式，直接访问 http://permit.mee.gov.cn/permitExt/xkgkAction!xkgk.action?xkgk=91211302788765710W001Q 提示请您访问<a href="http://permit.mee.gov.cn">permit.mee.gov.cn</a>，点击许可信息公开查询企业排污许可证信息，谢谢。 但是在浏览器中可以正常访问。请问应该如何修改代码？感谢

# coding=gbk


from tkinter import *  # 导入窗口控件
import tkinter.filedialog
import requests

cookie="JSESSIONID=32BD87A386D79C8A6A0E427EF9975BE6; _gscu_1697192173=08947271qw7xsd90; Hm_lvt_0f50400dd25408cef4f1afb556ccb34f=1608947274; echat_referrer_timer=echat_referrer_timeout; JSESSIONID9002C=CDDDEEB25180581FFDBC32071E89002C; paiwu80_cookie=45380249; es.echatsoft.com_12555_encryptVID=Ty9CowZosDSdslUqCeh4Sg==; es.echatsoft.com_12555_chatVisitorId=1283263338; echat_firsturl=http://permit.mee.gov.cn/permitExt/defaults/default-index!getInformation.action; echat_firsttitle=全国排污许可证管理信息平台-公开端; echat_referrer=; echat_referrer_pre="
cookies={i.split("=")[1]:i.split("=")[1] for i in cookie.split("; ")}  #将复制浏览器的COOKIE进行格式化

headers = {"Accept": "text/html,application/xhtml+xml,application/xml;", "Accept-Encoding": "gzip",
           "Accept-Language": "zh-CN,zh;q=0.8",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Content-Length": "141",
            "Content-Type": "application/x-www-form-urlencoded",
            "Cookie": cookies,
            "DNT": "1",
            "Host":"permit.mee.gov.cn",
            "Origin": "http://permit.mee.gov.cn",
            "Pragma": "no-cache",
            "Referer": "http://permit.mee.gov.cn/perxxgkinfo/syssb/xkgg/xkgg!licenseInformation.action",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
           }

addurl="91211302788765710W001Q"
url = "http://permit.mee.gov.cn/permitExt/xkgkAction!xkgk.action?xkgk=" + addurl
datas = {"xkgk": "getxxgkContent",
         "dataid": addurl
         }
r = requests.get(url,data=datas)
print(r.text)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
执笔墨飘烟 2021-03-23 20:46
关注
你的headers带了个寂寞，cookie也格式化了个寂寞= =

headers里面的cookie需要字符串的，不需要格式化

格式化后的cookie直接使用cookie的方式携带就好了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python爬虫爬取的内容与数据包中的内容不一致该怎么解决？ python 数据挖掘爬虫
2022-02-27 22:16

回答 3 已采纳你提取的就是汉字呀，那些/u开头的就是汉字的unicode编码https://blog.csdn.net/weixin_39778447/article/details/109942478 这里面有写
Python怎么爬取网站数据并生成Excel，这位大师做到了
2019-02-21 12:39

红馆的博客 print((‘爬取内容(每次’ + str(perPage) + ‘条)地址：’ + url).decode(‘utf-8’).encode(‘gbk’)) req = urllib2.Request(url, headers = headers) resp = urllib2.urlopen(req, context = context) ...
python提示，找不到路径，怎么解决呀 python
2022-08-22 00:03

回答 3 已采纳当前python执行目录里没有C:/Users/liao/PycharmProjects/pythonProject1/main.py这个文件，确定一下当前执行目录有这个 main.py 文件
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬取网站被识别如何解决 python
2021-05-28 19:50

回答 3 已采纳结合 selenium 库来操作。selenium 取到的 cookie 保存成文件，然后你这边 requests 请求的时候，去这个文件里读取最新的 token 值。
【Python爬虫】从零开始写一个论文爬虫程序(串行爬取)
2020-12-12 20:50

圣☆哥的博客【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)项目简介步骤与实践STEP1 获取目标内容的列表STEP2 利用开发者工具进行网页调研 2020-12-06 阴是时候上手鸽了半个月的项目了。。。笔者为了偷懒，准备边做...
Python爬虫能不能用正则表达式爬取学历部分？ python 爬虫
2022-09-25 14:35

回答 2 已采纳你好，这种HTML结构一般用xpath匹配，对于js般用正则表达式匹配，如果非要用正则表达式匹配HTML一般用：开头+（.*?）+结尾，括号里面的内容就是你要匹配的
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬虫-爬取github博客文章并存储为PDF
2022-01-01 23:36

ErYao7的博客大概浏览以下页面，tags页面中包含了所有文章，不存在分页情况，这样就省去一步了。 F12打开开发者工具，查看页面源码，我们看到一个标签列表。打开列表中的一个就会发现，该标签下的文章。 ctrl + shift +c...
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
Python 学习03 —— 爬虫网站项目
2021-07-13 23:10

老板来碗小面加蛋~的博客文章目录系列文章三、实战项目1、项目说明2、项目代码系列文章 Python 学习 01 —— Python基础 Python 库学习 —— urllib 学习 ...Python 学习03 —— 爬虫网站项目三、实战项目 1、项目说明
python爬虫资源路径报错_python爬虫
2020-12-09 08:18

weixin_39904587的博客例如，百度、google搜索某关键字时，就是爬取整个互联网上的相关资源，给呈现出来。实际爬虫四个步骤：1、明确目标2、爬(将所有网站的内容全部爬下来)-》分析其中一个网页源码，对html标签定位3、取(去掉对我们没...
没有解决我的问题, 去提问

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度

python 爬取网站分页不能得到真正页面，提示该问路径不合法，如何解决？

2条回答 默认 最新

悬赏问题

2条回答默认最新