Python 问财网搜索界面新闻爬取

做学术项目需要使用同花顺问财网的搜索引擎爬取新闻资讯。

网站：http://www.iwencai.com/index?tid=news

（爬取的是旧界面，需要登录后切换）

目前已经成功使用requests进行爬取，但是必须隔一段时间手动上浏览器登录然后复制更换cookie，很费时间，并且网站爬到后面好像有访问限制，越爬越慢。

附上请求相关的代码：

api='http://www.iwencai.com/search/
       
 headers=
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 'Accept-Encoding': 'gzip, deflate', 
            'Accept-Language': 'zh-CN,zh;q=0.9', 
            'Connection': 'keep-alive', 
            'Cookie': Cookie, 
            'Referer': 'http://www.iwencai.com/search/', 
            'Upgrade-Insecure-Requests': '1', 
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
        
                params=
                    'allow_redirect': 'false',
                    'w': keyword,
                    'tid': 'news',
                    'tr':'5',
                    'sdate':sdate,
                    'edate':edate,
                    'qid': '91a4a343109fdd76c9267bcc31fdc793',
                    'sameInfo': '1',
                    'qid': '91a4a343109fdd76c9267bcc31fdc793',
                    'p': page_num
                
response=requests.get(url=url,params=params,headers=headers,allow_redirects=True)
}

cookie有一些是跟随已登录用户的，有一些是不登陆直接访问也能生成的。尝试过使用selenium裸访问获取cookie再换进已有的cookie里但是失败了。

目前状况是能爬但是非常慢，想请教一下各位这个cookie码怎么破，谢谢！！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
步客 2021-12-29 10:32
关注
先用postman 测试headers里面那些内容不是必须的。
分析那些cookie 是浏览器生成的，那些是服务器返回的。
去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这个包执行你抠出来的js，生成cookie，放入到请求当中。
第三步，需要你有很好js基础，还有js逆向能力，不是一天两天能学会的。
技术不行就本办法凑，可以用selenium + mitmproxy，用selenium 控制网页滑动发送请求，然后使用mitmproxy 拦截请求，然后解析入库，但是这样就会占用一个电脑无法工作～
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录
1人已打赏

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

python爬虫-基于python 实现的爬取人民日报，爬取人民日报文章后存储到本地课程设计（课程设计报告+源码）
2024-06-27 10:49

【作品名称】：python爬虫-基于python 实现的爬取人民日报，爬取人民日报文章后存储到本地【课程设计】（课程设计报告+源码）【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程...
Python网络爬虫-新浪新闻的爬取.zip
2024-12-29 22:23

新浪作为中国重要的新闻门户网站之一，拥有丰富多样的新闻资源，而本课程将教你如何使用Python网络爬虫技术爬取新浪上的新闻信息。课程内容涵盖了爬取新浪新闻的主要步骤和技术要点。首先，需要介绍的是网络爬虫的...
Python （非付费）酷狗音乐爬取+UI界面
2023-10-06 08:00

在这个项目中，我们将探讨如何使用Python实现一个非付费的酷狗音乐爬虫，并结合UI界面来提供用户友好的交互体验。首先，让我们深入了解Python网络爬虫的基础。Python提供了丰富的库来帮助我们抓取网页数据，例如...
基于Python的必联网招标信息爬取系统.zip
2022-06-17 12:36

资源包含文件：课程报告+代码本次设计用Eclipse、...爬取之后会在系统界面上输出一些基本信息，并将爬取到的数据写入result.csv文件中。详细介绍参考：https://biyezuopin.blog.csdn.net/article/details/125326796
基于Python及多语言技术的小说爬取设计源码
2024-09-29 06:58

本项目提供的是一种基于Python编程语言和多语言技术的小说内容爬取设计源码。它的主要功能是高效地从互联网上抓取并解析小说内容，同时支持多种编程语言的协同工作，以达到信息获取与整理的高效率和稳定性。项目...
python gui界面实例_python爬取电影数据(含GUI界面版)
2021-04-20 21:36

python gui界面实例_python爬取电影数据(含GUI界面版)
python实现新闻爬取系统
2023-06-07 13:24

绘绘～的博客信息展示：tkinter爬取及请求：requests、BeautifulSoup。
Python网页图片爬取
2025-12-30 10:47

Python网页图片爬取技术是通过编写Python脚本程序，实现对互联网网页中的图片资源进行自动化采集的一种技术。这种方法广泛用于数据挖掘、图片存档、网络内容分析等领域。在进行图片爬取之前，需要了解网站的结构和...
基于selenium和Python的东方财富网股票数据分析与爬取设计源码
2024-10-05 18:31

本项目基于Python编程语言，并结合了Selenium自动化测试工具，成功开发出了一套针对东方财富网股票数据的分析与爬取系统。Selenium作为一个强大的网页自动化测试工具，它能够模拟浏览器操作，对于动态加载内容的数据...
基于python爬虫对豆瓣影评分析进行爬取的课程设计源码（高分项目）
2024-12-20 11:16

基于python爬虫对豆瓣影评分析进行爬取的课程设计源码（高分项目）基于python爬虫对豆瓣影评分析进行爬取的课程设计源码（高分项目）基于python爬虫对豆瓣影评分析进行爬取的课程设计源码（高分项目）基于python爬虫...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月25日

Python 问财网搜索界面新闻爬取

6条回答 默认 最新

问题事件

6条回答默认最新