daobalong 2020-09-20 17:33 采纳率: 80%
浏览 1209
已采纳

小白求助:请问怎么爬取img标签下的src地址?

https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm

图片说明

img这个标签好像没有独特的元素去定位,比如每张图片的img标签下的class属性值都不同,只会用find_all('a', class_='colorbox_gallery')到,要取出里面img里的src就没招了,求指导

然后,下载图片的过程中,有时候会遇到UnicodeEncodeError: 'gbk' codec can't encode character '\u0131' in position 7: illegal multibyte sequence
图片下载就中断了,有解决的办法吗?

  • 写回答

4条回答 默认 最新

  • 星光不问赶路人~ 2020-09-21 16:59
    关注

    import requests
    from lxml import etree
    url = "https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm"
    r = requests.get(url)
    print(r.content.decode())
    html = etree.HTML(r.content.decode())
    imgs = html.xpath("//img//@src")
    n = 1
    for i in imgs:
    print(i)
    response = requests.get(i)
    img = response.content
    with open("./imags/{}.jpg".format(n),"wb") as f: #需要在当前目录下建立imags文件夹
    f.write(img)
    n += 1

    #亲测运行正常

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥30 电脑误删了手机的照片怎么恢复?
  • ¥15 (标签-python|关键词-char)
  • ¥15 python+selenium,在新增时弹出了一个输入框
  • ¥15 苹果验机结果的api接口哪里有??单次调用1毛钱及以下。
  • ¥20 学生成绩管理系统设计
  • ¥15 来一个cc穿盾脚本开发者
  • ¥15 CST2023安装报错
  • ¥15 使用diffusionbert生成文字 结果是PAD和UNK怎么办
  • ¥15 有人懂怎么做大模型的客服系统吗?卡住了卡住了
  • ¥20 firefly-rk3399上启动卡住了