关于python爬虫保存网页以及网页图片时的问题

第一次写爬虫，想保存网页到本地，然后网页中的图片想用本地的图片来替换，但是用BeautifulSoup发现无法修改网页的标签的属性，下面是尝试爬取百度网页的代码，但是保存到本地之后发现img中src属性没有发生改变
import urllib
import urllib2
from bs4 import BeautifulSoup
from HTMLParser import HTMLParser

def callBack(a,b,c):
per = 100.0*a*b/c
if per > 100:
per = 100
print "%.2f%%" % per

def getFileData(addr):
try:
splitPath = addr.split('/')
fName = splitPath.pop()
print fName
urllib.urlretrieve(addr,'d://'+fName)
except Exception as e:
print 'Cannot download:%s:%s' % (fName,e)
return fName

def getHtml(url,url0):
html = urllib2.urlopen(url).read()

bsObj = BeautifulSoup(html,"html.parser")
fName = getFileData(url0)
tag = bsObj.find(name="img");
tag.attrs['src'] = fName
f = open("d://baidu.html","w+")
f.write(html)
f.close()

url = "http://www.baidu.com"
url0 = "https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/bd_logo1_31bdc765.png" #图片网址
getHtml(url,url0)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-11-09 15:31
关注
分成两步来分析问题，第一步看你是否下载正确内容下来，然后第二步就是查找了节点没，替换是否出错

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫网页图片 python 爬虫
2022-08-04 20:03

回答 2 已采纳你把这里的文件名改成绝对路径加文件名呢你没加路径，保存到的是你运行代码的那个路径里面去了你把那个盘符和文件夹名给加上
python爬虫入门教程：爬取网页图片
2022-04-05 15:25

plexming的博客而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程：准备工作语言：python IDE：pycharm 首先是要用到的库，因为是刚入门最简单的程序，我们主要就用到下面这两： ...
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
关于python爬虫，图片反爬 html python 爬虫
2022-07-12 00:50

回答 2 已采纳不是你爬到的是个静态的html页但是人家的html页其实是动态的，是需要执行js然后修改上面的值的
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬虫怎么保存图片_使用Python爬虫怎么将网页图片保存到本地
2021-03-06 16:53

今融道APP的博客使用Python爬虫怎么将网页图片保存到本地发布时间：2020-12-25 13:59:46来源：亿速云阅读：88作者：Leah这篇文章将为大家详细讲解有关使用Python爬虫怎么将网页图片保存到本地，文章内容质量较高，因此小编分享给...
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
Python爬虫爬取网页上的所有图片
2022-07-08 11:20

卡卡南安的博客 Python爬虫爬取网页上的所有图片。
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
没有解决我的问题, 去提问

悬赏问题

¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
¥15 onvif+openssl，vs2022编译openssl64
¥15 iOS 自定义输入法-第三方输入法

关于python爬虫保存网页以及网页图片时的问题

1条回答 默认 最新

悬赏问题

1条回答默认最新