Life_is_Romantic 2021-07-27 09:34 采纳率: 68.4%
浏览 142
已结题

为什么python报错但是能运行出一部分正确结果呢?

img
代码如下:爬取图片名和图片地址


import requests
from lxml import etree

if __name__ == '__main__':
    url='http://www.netbian.com/fengjing/'
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}
    res=requests.get(url,headers=headers)
    res.encoding='utf-8'
    html=res.text
    tree=etree.HTML(html)
    div=tree.xpath('///div[@class="list"]/ul/li')
    for li in div:
        img_alt = li.xpath('./a/img/@alt')[0]
        img_src = li.xpath('./a/img/@src')
        #img_alt.decode('gbk').encode('iso-8859-1')
        print(img_alt,img_src)




这个也是答案部分正确后面报错img
img

原因是这一页第三张图片没读出alt和src(第三行只有一个.jpg)
img

我看第三个li挺正常啊,为什么我的代码读不出来

  • 写回答

1条回答 默认 最新

  • _超人_ 2021-07-27 11:04
    关注
    
    import requests
    from lxml import etree
    
    if __name__ == '__main__':
        url='http://www.netbian.com/fengjing/'
        headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}
        res=requests.get(url,headers=headers)
        res.encoding='utf-8'
        html=res.text
        tree=etree.HTML(html)
        div=tree.xpath('///div[@class="list"]/ul/li')
        for li in div:
            img_alt = li.xpath('./a/img/@alt')
            img_src = li.xpath('./a/img/@src')
            #img_alt.decode('gbk').encode('iso-8859-1')
            print(img_alt,img_src)
    

    原网页class="list"的

    • 不是每个
    • 下都有alt和src,li.xpath('./a/img/@alt')为[](空数组)时,img_alt = li.xpath('./a/img/@alt')[0]报错IndexError: list index out of range

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
    _超人_ 2021-07-27 11:06

    原网页的class="list"的<ul>下不是每个<li>下都有alt和src

    回复
    Life_is_Romantic 回复 _超人_ 2021-07-27 11:47

    怎么去掉空数组呀?求解

    回复
    _超人_ 回复 Life_is_Romantic 2021-07-27 11:56

    
    import requests
    from lxml import etree
    
    if __name__ == '__main__':
        url='http://www.netbian.com/fengjing/'
        headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}
        res=requests.get(url,headers=headers)
        res.encoding='utf-8'
        html=res.text
        tree=etree.HTML(html)
        div=tree.xpath('///div[@class="list"]/ul/li')
        for li in div:
            try:
                img_alt = li.xpath('./a/img/@alt')[0]
                img_src = li.xpath('./a/img/@src')
                #img_alt.decode('gbk').encode('iso-8859-1')
                print(img_alt,img_src)
            except:
                pass
    

    回复
    展开全部5条评论
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 8月4日
  • 已采纳回答 7月28日
  • 修改了问题 7月27日
  • 修改了问题 7月27日
  • 展开全部
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部