网站地址:https://www.afa.org/publications-news/news/
今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。
有没有大神们能指点一下,这种网站要如何进行爬取。
网站地址:https://www.afa.org/publications-news/news/
今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。
有没有大神们能指点一下,这种网站要如何进行爬取。
是要找文章内容吗?我找到对应的JS,https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json,代码如下:
import requests
def test():
s=requests.session()
headers={
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection':'keep-alive',
'Host':'www.afa.org',
'Referer':'https://www.afa.org/publications-news/news/',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
'X-Requested-With':'XMLHttpRequest'
}
s.headers.update(headers)
url='https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json'
req=s.get(url=url).text
print(req)
s.close()
test()