做学术项目需要使用同花顺问财网的搜索引擎爬取新闻资讯。
网站:http://www.iwencai.com/index?tid=news
(爬取的是旧界面,需要登录后切换)
目前已经成功使用requests进行爬取,但是必须隔一段时间手动上浏览器登录然后复制更换cookie,很费时间,并且网站爬到后面好像有访问限制,越爬越慢。
附上请求相关的代码:
api='http://www.iwencai.com/search/
headers=
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Cookie': Cookie,
'Referer': 'http://www.iwencai.com/search/',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
params=
'allow_redirect': 'false',
'w': keyword,
'tid': 'news',
'tr':'5',
'sdate':sdate,
'edate':edate,
'qid': '91a4a343109fdd76c9267bcc31fdc793',
'sameInfo': '1',
'qid': '91a4a343109fdd76c9267bcc31fdc793',
'p': page_num
response=requests.get(url=url,params=params,headers=headers,allow_redirects=True)
}
cookie有一些是跟随已登录用户的,有一些是不登陆直接访问也能生成的。尝试过使用selenium裸访问获取cookie再换进已有的cookie里但是失败了。
目前状况是能爬但是非常慢,想请教一下各位这个cookie码怎么破,谢谢!!