爬虫python 中国新闻网搜索引擎无法请求

需求：遍历关键词，爬取每个关键词的所有新闻标题时间和正文内容
网址：sou.chinanews.com/search.do
问题：
中新网搜索引擎无法请求，用Postman复制了所有请求头和表单数据依然无法请求，返回结果如下

请求搜索结果第一页可以使用get方法，之后的都需要用post方法，但是不知道为啥总是只能显示这个结果。

用selenium先进入主页再输入关键词点击搜索后跳转页面也是直接不显示，无结果。

不清楚这是什么反爬机制，求助各位大神们！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-showbo 2021-12-23 10:36

关注

headers缺少了cookie，这个网址通过js生成这__jsluid_h，__jsl_clearance这2个cookie，没有的话会输出js生成cookie然后再跳转到搜索结果页

示例代码如下

import requests
from lxml import etree

url="http://sou.chinanews.com/search.do"
data={'q':'csdn','ps':10,'start':0,'time_scope':0}
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62',
         'cookie':'__jsluid_h=9dbeee52c34a00df6bfd8e0b3ae76a7e; __jsl_clearance=1640226302.386|0|nWlIequQJKrEH5Dn13StWxop9vA%3D; JSESSIONID=4148D76AC6EA9FB9DC589E3EE30AF093'
         }
for i in range(2):
    data['start']=i*10
    html=requests.post(url,headers=headers,data=data).text
    tree=etree.HTML(html)
    tables=tree.xpath('//div[@id="news_list"]/table')
    for table in tables:
        title=table.xpath('.//li[@class="news_title"]/a//text()')
        print(title)

有帮助或启发麻烦点下【采纳该答案】

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

爬虫python 中国新闻网搜索引擎无法请求 python 有问必答
2021-12-23 10:17

回答 1 已采纳 headers缺少了cookie，这个网址通过js生成这__jsluid_h，__jsl_clearance这2个cookie，没有的话会输出js生成cookie然后再跳转到搜索结果页示例代码如下
Python 问财网搜索界面新闻爬取 python 爬虫
2021-12-25 00:39

回答 7 已采纳先用postman 测试headers里面那些内容不是必须的。分析那些cookie 是浏览器生成的，那些是服务器返回的。去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
【毕业设计】python的搜索引擎系统设计与实现
2022-07-15 11:53

DanCheng-studio的博客这两年开始毕业设计和...为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是python的搜索引擎系统设计与实现学长这里给一个题目综合评分(每项满分5分)难度系数3分工作量5分创新点3分...
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
用python爬虫无法导出数据 json python 爬虫
2023-03-01 20:22

回答 3 已采纳回答不易，望采纳！这一行代码报错了应该是连页面内容都没有爬下来，后边更别谈格式化处理了。检查一下你的 cookie 是不是过期了吧
Python 网络爬虫及数据可视化
2021-01-11 18:47

BoBo玩ROS的博客 1.1 Python的优势 2 1.2 网络爬虫 2 1.3 数据可视化 2 1.4 Python环境介绍 2 1.4.1 简介 2 1.4.2 特点 3 1.5 扩展库介绍 3 1.5.1 安装模块 3 1.5.2 主要模块介绍 3 ① pandas模块 3 ② requests模块 4 ③ bs4模块 4 ...
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫post请求的格式相关问题 json python 爬虫
2022-09-16 14:34

回答 2 已采纳第一步：在Charles中右键复制该请求的 cURL Request第二步：在这里粘贴：https://spidertools.cn/#/curl2Request第三步：复制生成的python代码，什
python 网络爬虫怎么保存下载到本地硬盘 python 正则表达式爬虫
2022-01-04 22:56

回答 1 已采纳 #导入包 import requests import re import os #如果当前项目下有名为美女图片的文件夹，则不创建，么有则创建 if not os.path.exists('美女图片
信用中国爬虫.zip
2024-01-20 13:36

爬虫（Web Crawler）是一种自动...爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。
python网络爬虫 python 有问必答
2021-06-23 17:45

回答 2 已采纳建议参考文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 都是中文，很好理解如果对你有帮助，可以点击我
爬虫——中国各省专利开放许可.zip
2024-01-20 13:33

爬虫（Web Crawler）是一种自动...爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。
链家网和贝壳网房价爬虫.zip
2024-03-01 14:15

采集北京上海广州深圳等21个中国...爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月23日

悬赏问题

¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan

爬虫python 中国新闻网搜索引擎无法请求

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新