如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？

如何利用scrapy爬取整个网页的内容并将内容保存到自己的服务器上？
现在我想到了两种方式：

1、直接把scrapy爬取到的字符串通过SQLAlchemy保存到mysql数据库。
这种方式我试过但是不知道是不是容量受限制的原因没有保存成功。（爬取到的其他字段都能保存成功，只有这个保存带标签的网页内容的字段没有保存成功。）

2、在自己的服务器上搭建一个ftp服务器。
将爬取到的网页保存到自己的服务器，在mysql中只保存网页在ftp中的路径。
这种方式还没试过，有点不知道怎么操作。

此外还有一个问题需要解决，爬取到的网页中会有一些图文混排的内容，对于这些图片应该怎么处理呢？我想把网页中引用的图片的url改成自己服务器上的地址，
这个操作应该怎么进行呢。

（现在脑子里很乱，请各位大神指教，上代码、提供思路或者推荐参考资料都行。拜托大家了，感谢感谢，撒花撒花~）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wodexinhao 2018-02-09 10:44
关注
把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度4294967295个字元 (2^32-1）。

你的意思就是要把真个网页里面包括图片和css文件，js文件都保存到自己的服务器中，那就需要把爬取到的网页内容进行分析，把所有图片链接和css文件链接，js文件链接都下载下来，然后替换掉相应的路径，替换完再保存到服务器就可以了。这些都是很简单的，应该都会吧，不知道你具体是什么用途，所以回答可能不是很准确。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
python爬虫进阶篇：利用Scrapy爬取同花顺个股行情并发送邮件通知
2023-12-19 18:59

code_space的博客 python爬虫进阶篇：利用Scrapy爬取同花顺个股行情并发送邮件通知，来结合现实场景利用scrapy给我们带来便利
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答 python
2021-03-07 11:27

回答 3 已采纳数据是js动态渲染的，scrapy需结合splash使用，用selenium速度虽慢点，但是对js加载数据的获取准确性较高。 driver.implicitly_wait(5) #page=dri
如何使用 Python 爬虫 Scrapy 获取网页（某度）内容？
2023-06-08 16:01

狗蛋的博客之旅的博客如何使用 Python 爬虫 Scrapy 获取网页内容？
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
【爬虫】4.3 Scrapy 爬取与存储数据
2023-06-12 15:29

即使再小的船也能远航的博客在这个程序中采用文件存储爬取的数据，BookPipeline 类中先定义一个类成员count=0，用它来记录process_item调用的次数。如果是第一次调用(count=1)那么就使用语句fobj=open("books.txt",
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
Scrapy+Selenium爬取异步加载网页并部署到Linux-Debain服务器完整教程
2022-06-17 20:54

ZGlenfiddich的博客 Scrapy，爬虫，异步加载
【python实现网络爬虫（6）】Scrapy爬取网易新闻
2020-02-05 19:43

lys_828的博客新建项目在命令行窗口下输入scrapy startproject news,如下然后就自动创建了相应的文件，如下
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？

3条回答 默认 最新

悬赏问题

3条回答默认最新