weixin_57007661 2021-12-25 00:39 采纳率: 50%
浏览 367
已结题

Python 问财网搜索界面新闻爬取

做学术项目需要使用同花顺问财网的搜索引擎爬取新闻资讯。

网站:http://www.iwencai.com/index?tid=news

(爬取的是旧界面,需要登录后切换)

目前已经成功使用requests进行爬取,但是必须隔一段时间手动上浏览器登录然后复制更换cookie,很费时间,并且网站爬到后面好像有访问限制,越爬越慢。

附上请求相关的代码:

api='http://www.iwencai.com/search/
       
 headers=
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 'Accept-Encoding': 'gzip, deflate', 
            'Accept-Language': 'zh-CN,zh;q=0.9', 
            'Connection': 'keep-alive', 
            'Cookie': Cookie, 
            'Referer': 'http://www.iwencai.com/search/', 
            'Upgrade-Insecure-Requests': '1', 
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
        
                params=
                    'allow_redirect': 'false',
                    'w': keyword,
                    'tid': 'news',
                    'tr':'5',
                    'sdate':sdate,
                    'edate':edate,
                    'qid': '91a4a343109fdd76c9267bcc31fdc793',
                    'sameInfo': '1',
                    'qid': '91a4a343109fdd76c9267bcc31fdc793',
                    'p': page_num
                
response=requests.get(url=url,params=params,headers=headers,allow_redirects=True)
}

cookie有一些是跟随已登录用户的,有一些是不登陆直接访问也能生成的。尝试过使用selenium裸访问获取cookie再换进已有的cookie里但是失败了。

目前状况是能爬但是非常慢,想请教一下各位这个cookie码怎么破,谢谢!!

  • 写回答

7条回答 默认 最新

      报告相同问题?

      相关推荐 更多相似问题

      问题事件

      • 系统已结题 1月9日
      • 已采纳回答 1月1日
      • 修改了问题 12月25日
      • 创建了问题 12月25日

      悬赏问题

      • ¥20 有人知道怎么将vsi格式的图片文件,转换为svs格式的文件吗
      • ¥15 历史模拟法计算var实验报告
      • ¥15 白鲸算法优化K值的VMD分解出错
      • ¥20 写一个基于52单片机用hc-05蓝牙模块控制28BYJ-48步进电机进行旋转,在手机蓝牙串口输入1019电机转半圈,输入2038电机转一圈,输入0复位的代码吗
      • ¥15 求51单片机8位数码管计时器程序
      • ¥20 matlab识别螺母边缘
      • ¥15 python 6x6游戏加登录、记录系统
      • ¥100 基于做一个模拟智慧路灯
      • ¥15 ME21N 创建采购成功并且生成采购订单号,但显示“快件文档更新已取消”,SM13看错误提示为如下截图:
      • ¥30 android 集成fmod实现变声功能中遇到的问题