daobalong 2020-09-20 17:33 采纳率: 80%
浏览 1192
已采纳

小白求助:请问怎么爬取img标签下的src地址?

https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm

图片说明

img这个标签好像没有独特的元素去定位,比如每张图片的img标签下的class属性值都不同,只会用find_all('a', class_='colorbox_gallery')到,要取出里面img里的src就没招了,求指导

然后,下载图片的过程中,有时候会遇到UnicodeEncodeError: 'gbk' codec can't encode character '\u0131' in position 7: illegal multibyte sequence
图片下载就中断了,有解决的办法吗?

  • 写回答

4条回答 默认 最新

  • 星光不问赶路人~ 2020-09-21 16:59
    关注

    import requests
    from lxml import etree
    url = "https://www.gooood.cn/sl_release-apartment-by-pascali-semerdjian-arquitetos.htm"
    r = requests.get(url)
    print(r.content.decode())
    html = etree.HTML(r.content.decode())
    imgs = html.xpath("//img//@src")
    n = 1
    for i in imgs:
    print(i)
    response = requests.get(i)
    img = response.content
    with open("./imags/{}.jpg".format(n),"wb") as f: #需要在当前目录下建立imags文件夹
    f.write(img)
    n += 1

    #亲测运行正常

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥20 请问这种量表怎么用spss量化分析(作为中介模型的因变量
  • ¥55 AD844 howland电流源如何驱动大额负载
  • ¥15 C++ /QT 内存权限的判断函数列举
  • ¥15 深度学习GFnet理解问题
  • ¥15 单细胞小提琴堆叠图代码
  • ¥50 升级strust2版本到2.3.15.1后使用ognl3.0.6.jar windows环境中没有问题,但部署到linux环境报错
  • ¥15 vue页面,node封装接口
  • ¥15 求TMS320F280039C工程模板!
  • ¥15 delphi+fastreport实现分组补空打印问题
  • ¥15 使用python把两台mysql数据库服务器数据导出和导入