daobalong 2020-09-20 17:33 采纳率: 80%
浏览 1203
已采纳

小白求助:请问怎么爬取img标签下的src地址?

https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm

图片说明

img这个标签好像没有独特的元素去定位,比如每张图片的img标签下的class属性值都不同,只会用find_all('a', class_='colorbox_gallery')到,要取出里面img里的src就没招了,求指导

然后,下载图片的过程中,有时候会遇到UnicodeEncodeError: 'gbk' codec can't encode character '\u0131' in position 7: illegal multibyte sequence
图片下载就中断了,有解决的办法吗?

  • 写回答

4条回答 默认 最新

  • 星光不问赶路人~ 2020-09-21 16:59
    关注

    import requests
    from lxml import etree
    url = "https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm"
    r = requests.get(url)
    print(r.content.decode())
    html = etree.HTML(r.content.decode())
    imgs = html.xpath("//img//@src")
    n = 1
    for i in imgs:
    print(i)
    response = requests.get(i)
    img = response.content
    with open("./imags/{}.jpg".format(n),"wb") as f: #需要在当前目录下建立imags文件夹
    f.write(img)
    n += 1

    #亲测运行正常

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 matlab求解平差
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制
  • ¥20 usb设备兼容性问题
  • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
  • ¥15 安装svn网络有问题怎么办