Jeffery_KK 2020-06-01 15:18 采纳率: 100%
浏览 943
已采纳

关于Python 网络数据爬虫爬取不到数据

起初是用xpath进行数据爬虫

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"}
    response = requests.get('https://www.gia.edu/CN/report-check?_=2&reportno=7348210118',headers=headers)

    contents = etree.HTML(response.text)

图片说明

发现数据不对,页面上的数据是通过JS加载出来的。

图片说明

后来通过分析数据来源,找到了数据加载是在这个JS文件中完成,并且数据是在页面中ID为xmlcontent的标签内容中,但是xmlcontent标签是设置的隐藏。
网上查阅资料说是用selenium可以获取隐藏标签

driver = webdriver.PhantomJS(executable_path=r'D:\python_tools\phantomjs-2.1.1-windows\bin\phantomjs.exe')
driver.get('https://www.gia.edu/CN/report-check?reportno=6335838911')

xmlcontent = driver.find_element_by_id('xmlcontent')

print(xmlcontent.get_attribute('innerHTML'))

但是貌似效果不理想,初学者往各位大佬指点~~~

  • 写回答

1条回答

      报告相同问题?

      相关推荐 更多相似问题

      悬赏问题

      • ¥15 使用DWY100k数据集对UEA进行测试,出现报错:IndexError: index 125000 is out of bounds for axis 0 with size 95500
      • ¥15 前端vue实现根据图片url生成pdf文件
      • ¥15 RfidReader资源Q个
      • ¥20 user-agent是否是唯一的,有没有可能相同
      • ¥15 关于#开会#的问题,如何解决?(语言-c++)
      • ¥15 关于#二十四点问题#的问题
      • ¥15 运行kitex的demon出错(求大家解决)
      • ¥15 开发一个类似 typora 这样的软件需要多少钱?
      • ¥15 clearcase7.0安装包
      • ¥15 断点回归模型月度核密度检验不连续