求助：python爬取图片，怎么取出标签里的src内容？

from bs4 import BeautifulSoup
import requests
import os
import lxml
import parsel


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}

url = 'https://www.archdaily.com/946565/higashi-sanchome-toilet-nao-tamura/5f4790beb35765c1ca0000ea-higashi-sanchome-toilet-nao-tamura-photo'


result = requests.get(url, headers= headers)
parse = parsel.Selector(result.text)
targetCode = parse.xpath('/html/body/div[1]/div[1]/div[1]/div/div/div[1]/figure/img')
print(targetCode)

返回的结果

[<Selector xpath='/html/body/div[1]/div[1]/div[1]/div/div/div[1]/figure/img' data='<img class="afd-gal-img js-gal-img" i...'>]

我需要的内容是img标签里的src或是data-largesrc图片地址（两者内容好像一样），试过print(targetCode.extract_first().encode('utf-8'))
但是返回img内容只有一半

b'<img class="afd-gal-img js-gal-img" id="5f4790beb35765c1ca0000ea-higashi-sanchome-toilet-nao-tamura-photo" alt="Higashi Sanchome Toilet / Nao Tamura,\xc2\xa9 Satoshi Nagare, Courtesy of The Nippon Foundation" style="transform-origin: 50% 50%;">'

前面有个b不知道是什么东西，然后也不是我要的,用.extract（）也不行，折腾好久了，麻烦帮忙解答下，谢谢
图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

斯曦巍峨新星创作者: python技术领域 2020-09-03 00:16

关注

源码中有包含所有图片url的json对象
图片说明
因此可以使用BeautifulSoup找到该对象，然后利用json模块读取对象中的所有url，爬取的结果展示如下

源码如下

from bs4 import BeautifulSoup
import requests
import os
import lxml
import json


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}

url = 'https://www.archdaily.com/946565/higashi-sanchome-toilet-nao-tamura/5f4790beb35765c1ca0000ea-higashi-sanchome-toilet-nao-tamura-photo'


result = requests.get(url, headers= headers)
soup = BeautifulSoup(result.content,'lxml')
json_data = soup.find('div',attrs={'id':'gallery-items'})
figures = json.loads(json_data.get('data-images'))

for figure in figures:
    print(figure['url_large'])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(5条)

报告相同问题？

关注问题

python如何爬虫获取图形上点的坐标_求助：python爬取图片，怎么取出标签里的src内容？...
2020-11-23 23:15

weixin_39996096的博客 headers) parse = parsel.Selector(result.text) targetCode = parse.xpath('/html/body/div[1]/div[1]/div[1]/div/div/div[1]/figure/img') print(targetCode) 返回的结果 [] 我需要的内容是img标签里的src或是data...
python爬取正确但不出文件_[求助] Python 爬虫爬取豆瓣_请不要害羞，语法没有报错，但是最终没有得到图片，请各位大神帮我看看，到底哪里出现了问题？？急求...
2020-12-02 14:23

weixin_39633452的博客 path) #切换路径至上面创建的文件夹 for a in all_a: img_str = a['src'] print('a 标签的 style 内容是：',img_str) img_name = a['title'] self.save_img(img_str, img_name) #调用 save_img 方法来保存图片 def ...
python 爬虫一键爬取携程旅游团数据
2020-06-01 16:55

梁先森-在技术的路上奔跑的博客 python 爬虫一键爬取携程旅游团数据前言最近我的好朋友在做期末大作业，需要分析疫情前后对旅游行业的影响。于是，就求助我，想让我帮忙趴取一下携程旅游团的评价数据，包括评价时间、评价内容、评分这三条数据。...
python爬取b站视频封面
2020-08-04 15:36

ErosionQi的博客 python爬取b站视频封面逛b站的时候总会遇到封面好看的视频，其评论区里一片“交封不杀[doge]”的景象。如果遇到不爱看评论的up主，那就只能求助于某神秘网址了（笑）。神秘网址：https://bilicover.magecorn.com/....
Python爬虫实战：爬取官员官方信息
2017-09-26 11:24

LucyGill的博客最近导师给了一个任务：用Python爬取中国官员的官方信息，然后将信息中的关键信息（时间地点任务blablabla）抽取出来，绘制他们的关系图。千里之行始于足下，我就从Python爬虫开始。首先上代码： from urllib ...
怎样用Python3 写一个爬图片的程序?
2017-09-01 20:12

剑齿虎的牙_XH的博客怎样用Python3 写一个爬图片的程序?参考网页：xiaowanggedege的专栏缘起于一个小伙伴，在网上发帖求助一段代码，功能是实现从百度贴吧，爬一个叫杉本有美的日本国际友人的图片。（声明：本人之前确实不认识这个...
8、【办公自动化】Python实现PDF文件的批量操作
2022-10-29 15:47

谁是谁的小确幸的博客介绍下 Python 实现 PDF 文件的合并和拆分、加解密、添加和去除水印、提取指定内容、转换成其他文件格式等批量操作的实现，可通过 PyPDF2 、pdfplumber 等模块实现。
php 2条不一样的json数据怎么放在一个json里面_Python 爬取 4027 条脉脉职言，解读程序员真实的互联网生活！...
2020-11-27 02:34

weixin_39540744的博客脉脉是一个实名职场社交平台。之前爬了脉脉职言版块，大概爬了4027条评论，本文对爬取过程给出详细说明，对于评论内容仅做可视...爬取目标：Python资源共享群：484031800只爬文字部分，图片不考虑。在浏览器内按F12...
求助一下各位大神，用python爬虫抓bing的每日图库，程序运行正常，但是没有图片生成
2020-02-22 20:45

Chic Han To的博客 ```python import urllib . request as ur import os as os def url_open ( url ) : req = ur . Request ( url ) req . add_header ( "User-Agent" , "Mozilla/5.0 (Windows NT 10.0; Win64; x64...
Python简易爬虫爬取百度贴吧图片
2017-07-29 23:51

weixin_30790841的博客　通过python来实现这样一个简单的爬虫功能，把我们想要的图片爬取到本地。(Python版本为3.6.0) 一.获取整个页面数据　 def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return ...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

求助：python爬取图片，怎么取出标签里的src内容？

6条回答默认最新

码龄粉丝数原力等级 --

求助：python爬取图片，怎么取出标签里的src内容？

6条回答 默认 最新

6条回答默认最新