qq_43182687
2018-10-12 05:54
采纳率: 0%
浏览 4.0k

练习Python时发现一个网站,完全查看不到网页的源代码

网站地址:https://www.afa.org/publications-news/news/

今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。

有没有大神们能指点一下,这种网站要如何进行爬取。

  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • lyhsdy 2018-10-12 06:12

    是要找文章内容吗?我找到对应的JS,https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json,代码如下:

    import requests
    def test():
        s=requests.session()
        headers={
            'Accept':'application/json, text/javascript, */*; q=0.01',
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'zh-CN,zh;q=0.9',
            'Connection':'keep-alive',
            'Host':'www.afa.org',
            'Referer':'https://www.afa.org/publications-news/news/',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
            'X-Requested-With':'XMLHttpRequest'
    
        }
        s.headers.update(headers)
        url='https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json'
        req=s.get(url=url).text
        print(req)
        s.close()
    
    
    test()
    
    
    打赏 评论
  • 码尊强者 2018-10-14 13:09

    chrome能看到源码啊,???

    打赏 评论
  • 猫兮ぃCatci 2020-02-23 15:18

    你可以看看是否为动态加载页面,如果是,你可以使用selenium库的webdriver来动态爬取
    首先在你的浏览器上安装对应的插件(例如我的浏览器是chrome)
    driver = webdriver.Chrome
    driver.get('website')
    如果要想保存登录信息,可以去我的博文里看看

    打赏 评论

相关推荐 更多相似问题