洛妃de橱窗 2021-10-23 17:12 采纳率: 100%
浏览 155
已结题

python使用xpath爬取网络数据报表结果为空

采集公司内部提供的数据报表,在xpath输出的过程中结果为[]
无返爬机制 求解决

url='https://fr.oppein.com:9001/op/decision/view/report?viewlet=/%E5%A4%A9%E6%B4%A5%E5%9F%BA%E5%9C%B0/%E5%A4%A9%E6%B4%A5%E7%94%9F%E4%BA%A7%E8%AE%A1%E5%88%92%E9%87%87%E8%B4%AD%E9%83%A8/%E3%80%90XMES%E3%80%91%E5%A4%A9%E6%B4%A5%E5%AE%B6%E5%85%B7%E5%8E%82%E6%9F%9C%E8%BA%AB%E7%94%9F%E4%BA%A7%E7%BA%BF%E5%8C%85%E8%A3%85%E5%AE%8C%E6%88%90%E6%83%85%E5%86%B5.cpt'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36'}
get = requests.get(url=url,headers=headers).text
html_new = get.replace('<!--', '"').replace('-->', '"')#正则表达式 注释性切换字符
selector = etree.HTML(html_new)  # 将源码转换为xpath可以识别的TML格式
print(selector.xpath('//title/text()'))#标题采集title
wz=selector.xpath('/html/body/div[1]/div/div/div/div/div/table/tbody/tr[9]/td[1]')
wz2=selector.xpath('//*[@id="A9-0-223416"]')
print(wz)
print(wz2)

img

img

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2021-10-23 19:25
    关注

    该页面数据在XHR中找,构建一下headers和params,使用如下方式获json数据,然后从中解析即可:

    response = requests.get('https://fr.oppein.com:9001/op/decision/view/report', headers=headers, params=params)
    
    js=response.json()
    print(js)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 11月2日
  • 已采纳回答 10月25日
  • 创建了问题 10月23日

悬赏问题

  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号
  • ¥50 安装pyaudiokits失败
  • ¥15 计组这些题应该咋做呀
  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能
  • ¥15 jmeter脚本回放有的是对的有的是错的
  • ¥15 r语言蛋白组学相关问题