qq_43182687 2018-10-12 05:54 采纳率: 0%
浏览 4043

练习Python时发现一个网站,完全查看不到网页的源代码

网站地址:https://www.afa.org/publications-news/news/

今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。

有没有大神们能指点一下,这种网站要如何进行爬取。

  • 写回答

3条回答 默认 最新

  • lyhsdy 2018-10-12 06:12
    关注

    是要找文章内容吗?我找到对应的JS,https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json,代码如下:

    import requests
    def test():
        s=requests.session()
        headers={
            'Accept':'application/json, text/javascript, */*; q=0.01',
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'zh-CN,zh;q=0.9',
            'Connection':'keep-alive',
            'Host':'www.afa.org',
            'Referer':'https://www.afa.org/publications-news/news/',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
            'X-Requested-With':'XMLHttpRequest'
    
        }
        s.headers.update(headers)
        url='https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json'
        req=s.get(url=url).text
        print(req)
        s.close()
    
    
    test()
    
    
    评论

报告相同问题?

悬赏问题

  • ¥50 易语言把MYSQL数据库中的数据添加至组合框
  • ¥20 求数据集和代码#有偿答复
  • ¥15 关于下拉菜单选项关联的问题
  • ¥20 java-OJ-健康体检
  • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
  • ¥15 使用phpstudy在云服务器上搭建个人网站
  • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
  • ¥15 vue3+express部署到nginx
  • ¥20 搭建pt1000三线制高精度测温电路
  • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况