qq_43182687 2018-10-12 05:54 采纳率: 0%
浏览 4044

练习Python时发现一个网站,完全查看不到网页的源代码

网站地址:https://www.afa.org/publications-news/news/

今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。

有没有大神们能指点一下,这种网站要如何进行爬取。

  • 写回答

3条回答

  • lyhsdy 2018-10-12 06:12
    关注

    是要找文章内容吗?我找到对应的JS,https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json,代码如下:

    import requests
    def test():
        s=requests.session()
        headers={
            'Accept':'application/json, text/javascript, */*; q=0.01',
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'zh-CN,zh;q=0.9',
            'Connection':'keep-alive',
            'Host':'www.afa.org',
            'Referer':'https://www.afa.org/publications-news/news/',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
            'X-Requested-With':'XMLHttpRequest'
    
        }
        s.headers.update(headers)
        url='https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json'
        req=s.get(url=url).text
        print(req)
        s.close()
    
    
    test()
    
    
    评论

报告相同问题?