weixin_44764910 2022-01-27 12:25 采纳率: 100%
浏览 418
已结题

xpath爬取图片,得不到src ,python求解决


import requests
from lxml import etree
def main():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400'}
    url = "https://pic.sogou.com/pics?query=%E4%BA%94%E6%98%9F%E7%BA%A2%E6%97%97%E5%9B%BE%E7%89%87&rawQuery=%E4%BA%94%E6%98%9F%E7%BA%A2%E6%97%97%E5%9B%BE%E7%89%87&st=255&mood=5&dm=0&mode=1"
    resp = requests.get(url, headers=headers)
    resp.encoding = "utf-8"
    child_tree = etree.HTML(resp.text)
    imgs = child_tree.xpath('//div[@class="figure-result"]//a/img')
    for img in imgs:
        src = img.xpath('./@src')
        print(src)

if __name__ == '__main__':
    main()

  • 写回答

4条回答 默认 最新

  • CSDN专家-showbo 2022-01-27 13:55
    关注

    图片是js解析出来的,xpath无效,数据在js变量里面,正则提取下数据用json.loads加载获取

    img


    img


    代码如下

    img

    import requests
    import re
    import json
    def main():
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400'}
        url = "https://pic.sogou.com/pics?query=%E4%BA%94%E6%98%9F%E7%BA%A2%E6%97%97%E5%9B%BE%E7%89%87&rawQuery=%E4%BA%94%E6%98%9F%E7%BA%A2%E6%97%97%E5%9B%BE%E7%89%87&st=255&mood=5&dm=0&mode=1"
        resp = requests.get(url, headers=headers)
        resp.encoding = "utf-8"
    
        jsonstr=re.findall(r'window\.__INITIAL_STATE__=(.+?);\(function\(\){var s;',resp.text,re.S)[0]
        
        data=json.loads(jsonstr)
        for item in data['searchList']['searchList']:
            print(item['title'])
            print(item['picUrl'])
    
        '''
        child_tree = etree.HTML(resp.text)
        #imgs = child_tree.xpath('//div[@class="figure-result"]//a/img')
        #for img in imgs:
        #    src = img.xpath('./@src')
            print(src)
        '''
     
    if __name__ == '__main__':
        main()
     
    
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 2月4日
  • 已采纳回答 1月27日
  • 创建了问题 1月27日

悬赏问题

  • ¥15 Attention is all you need 的代码运行
  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测