爬虫搜索出来内容是JS封装

请有识之士帮忙看下，好人一生平安：

1 .　爬该网站：网址 https://www.cqggzy.com/xxhz/014001/014001001/zbggjyxx-page.html?keyword=%E6%95%B0%E6%8D%AE，，解密后网址：https://www.cqggzy.com/xxhz/014001/014001001/zbggjyxx-page.html?keyword=数据
２．目标：搜索出‘数据’相关的信息，爬出的搜索信息部分被JS封装，
３．代码如下：

import ssl # 防止验证报错
ssl._create_default_https_context = ssl._create_unverified_context
import urllib.request as ur
import urllib.parse as up
import requests
import re,json
import lxml.etree as le
# import xpath_tool
import pymongo

kw = '数据'
data = {
    'keyword': kw
}
data_url = up.urlencode(data) # encode
url = 'https://www.cqggzy.com/xxhz/014001/014001001/zbggjyxx-page.html?'+data_url
headers = {'User-Agent':'Mozilla/5.0.html (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.html.1271.64 Safari/537.11'}

req = ur.Request(
    url = url,
    headers = headers
)
content = ur.urlopen(req).read().decode('utf-8', 'ignore')
with open('数据.html','w',encoding='utf-8') as f:
    f.write(content)

新增用request.post方法尝试失败：

url_js = 'https://www.cqggzy.com/interface/rest/inteligentSearch/getFullTextData'
headers_js = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9,en-GB;q=0.8,en;q=0.7",
    "Connection": "keep-alive",
    "Content-Length": "615",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "JSESSIONID=139064B5D7DE210BE4B58893B41C2C7F; __jsluid_s=55e35824b3517a59c43c1b750043c288; cookie_www=19398923; Hm_lvt_3b83938a8721dadef0b185225769572a=1614754494,1614777887; Hm_lpvt_3b83938a8721dadef0b185225769572a=1614781676",
    "Host": "www.cqggzy.com",
    "Origin": "https://www.cqggzy.com",
    "Referer": "https://www.cqggzy.com/xxhz/014001/014001001/zbggjyxx-page.html?keyword=%E6%95%B0%E6%8D%AE",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest"
}


data_js = {
            "token": "",
            "pn": 0,
            "rn": 18,
            "sdt": "",
            "edt": "",
            "wd": " ",
            "inc_wd": "",
            "exc_wd": "",
            "fields": "title",
            "cnum": "001",
            "sort": {"istop":0,"ordernum":0,"webdate":0,"rowid":0},
            "ssort": "title",
            "cl": 200,
            "terminal": "",
            "condition": [
                {"fieldName": "categorynum", "equal": "014001001", "notEqual": None, "equalList": None, "notEqualList": None,
                 "isLike": True, "likeType": 2},
                {"fieldName": "titlenew", "equal": "数据", "notEqual": None, "equalList": None, "notEqualList": None,
                 "isLike": True,
                 "likeType": 0}],
            "time": None,
            "highlights": "title",
            "statistics": None,
            "unionCondition": [],
            "accuracy": "",
            "noParticiple": "0",
            "searchRange": None,
            "isBusiness": "1"
        }

res=requests.post(url=url_js,headers=headers_js,data=data_js)
print('res:', res)
print('res',res.text)

F12->network->XHR->F5，获得的headers作为headers和form data 作为data

打印结果一个返回500，一个空白

res: <Response [500]>
res:

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-05 11:14
关注
用requests.post(‘...getFullTextData’，headers=headers,cookies=cookies,data=data),要把请求头,cookies和请求参数传递进去。具体如何操作私聊。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

LangChain实战案例详解：URL加载网页内容的爬虫功能封装
2024-08-21 21:53

大模型入门教程的博客：使用Playwright启动Chromium实例，该实例可以处理JavaScript渲染和更复杂的web交互。Chromium是Playwright支持的浏览器之一，Playwright是一个用于控制浏览器自动化的库。HTML2Text：将HTML内容直接转换为纯文本，...
【LangChain系列】实战案例2：通过URL加载网页内容 - LangChain对爬虫功能的封装
2024-09-18 10:16

AI-入门的博客：使用Playwright启动Chromium实例，该实例可以处理JavaScript渲染和更复杂的web交互。Chromium是Playwright支持的浏览器之一，Playwright是一个用于控制浏览器自动化的库。HTML2Text：将HTML内容直接转换为纯文本，...
人工智能-项目实践-搜索引擎-java编写，获取百度和360搜索引擎，关键词对应网站的排名
2024-02-26 16:12

在本项目实践中，我们将深入探讨如何使用Java编程语言来实现一个人工智能应用，具体目标是构建一个搜索引擎排名抓取工具，它可以获取特定关键词在百度和360搜索引擎上的对应网站排名。这个工具对于SEO（搜索引擎优化...
【AI大模型应用开发】实战案例2：通过URL加载网页内容 - LangChain对爬虫功能的封装
2024-05-06 16:13

AGI大模型学习的博客 •：使用Playwright启动Chromium实例，该实例可以处理JavaScript渲染和更复杂的web交互。Chromium是Playwright支持的浏览器之一，Playwright是一个用于控制浏览器自动化的库。• HTML2Text：将HTML内容直接转换为纯...
基于Selenium+Playwright实现百度搜索结果智能爬虫系统
2025-06-10 11:12

Python爬虫项目的博客本项目完整实现了一个具备抗封锁能力、异步高效的百度搜索爬虫，利用Selenium + Playwright + BeautifulSoup等现代技术，结合数据库存储与Streamlit展示，形成了完整的数据抓取-存储-展示闭环。
AI 模型识别 Nginx 流量中爬虫机器人的防御机制
2025-12-17 14:12

serve the people的博客摘要：本文提出基于AI识别Nginx流量中爬虫机器人的防御方案，核心流程为：采集Nginx日志→标注数据→特征工程→模型训练→Nginx集成。重点包括：数据采集：配置Nginx日志格式，记录IP、UA、Referer等关键字段，并...
AI 赋能的 Python 超强爬虫：crawl4ai 框架助力异步高并发与断点续传
2025-08-08 16:53

不想当牛马2324的博客本项目以“高效、健壮、易扩展”为核心原则，针对大规模网络小说分章节采集的实际需求，设计了一套异步驱动、分批并发、断点可续的爬虫架构。核心流程高度解耦：采集流程、异常处理、文件存储、进度管理均为独立函数...
Python爬虫破解JS混淆数据加密实战
2025-12-26 15:14

魔都财观的博客通过分析目标网站的JS混淆与数据加密机制，结合浏览器调试与Python模拟执行，成功提取加密参数并还原真实数据。重点涉及断点调试、AST分析、环境模拟及自动化解密流程。
前端爬虫+可视化Demo
2024-03-04 23:57

星辰大海1412的博客爬虫就是一个探测程序，它的基本功能就是模拟人的行为去各个网站转悠，点点按钮，找找数据，或者把看到的信息背回来。使用的百度和Google，其实就是利用了这种爬虫技术: 每天放出无数爬虫到各个网站，把他们的信来，...
基于Python + Vue.js的爬虫混合新闻推荐系统
2025-03-07 17:49

源码空间站TH的博客数据库设计是本系统的核心之一，主要负责存储新闻数据、用户数据、权限...系统使用MySQL数据库进行数据存储，并且通过爬虫抓取的新闻内容、用户行为数据和评论数据都会存储到数据库中，为推荐算法提供必要的数据支持。
没有解决我的问题, 去提问

爬虫搜索出来内容是JS封装

2条回答 默认 最新

2条回答默认最新