如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？

如何利用scrapy爬取整个网页的内容并将内容保存到自己的服务器上？
现在我想到了两种方式：

1、直接把scrapy爬取到的字符串通过SQLAlchemy保存到mysql数据库。
这种方式我试过但是不知道是不是容量受限制的原因没有保存成功。（爬取到的其他字段都能保存成功，只有这个保存带标签的网页内容的字段没有保存成功。）

2、在自己的服务器上搭建一个ftp服务器。
将爬取到的网页保存到自己的服务器，在mysql中只保存网页在ftp中的路径。
这种方式还没试过，有点不知道怎么操作。

此外还有一个问题需要解决，爬取到的网页中会有一些图文混排的内容，对于这些图片应该怎么处理呢？我想把网页中引用的图片的url改成自己服务器上的地址，
这个操作应该怎么进行呢。

（现在脑子里很乱，请各位大神指教，上代码、提供思路或者推荐参考资料都行。拜托大家了，感谢感谢，撒花撒花~）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wodexinhao 2018-02-09 10:44
关注
把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度4294967295个字元 (2^32-1）。

你的意思就是要把真个网页里面包括图片和css文件，js文件都保存到自己的服务器中，那就需要把爬取到的网页内容进行分析，把所有图片链接和css文件链接，js文件链接都下载下来，然后替换掉相应的路径，替换完再保存到服务器就可以了。这些都是很简单的，应该都会吧，不知道你具体是什么用途，所以回答可能不是很准确。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

使用scrapy爬取伯乐在线文章并保存到mysql
2017-05-28 17:27

在这个项目中，我们利用Scrapy来爬取伯乐在线的文章，并将抓取到的数据存储到MySQL数据库中，实现数据的持久化。首先，我们需要在本地安装Scrapy。可以通过pip命令进行安装： ``` pip install scrapy ``` 创建一...
Python利用Scrapy框架爬取豆瓣电影示例
2020-12-23 03:17

【Python利用Scrapy框架爬取豆瓣电影示例】 Scrapy是一个功能强大的Python爬虫框架，设计用于高效地抓取网站数据并提取结构化信息。它适用于数据挖掘、信息处理和历史数据存储等任务。要安装Scrapy，可以使用Python...
根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页
2018-10-10 17:38

描述中提到的任务是在今日头条网站上搜索指定的关键词，然后爬取与这个关键词相关的所有新闻信息，包括新闻标题、发布日期、作者、内容等，并进一步抓取内容页的详细信息。由于今日头条的网页可能存在动态加载的内容...
Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
2021-05-27 16:52

在本项目中，我们利用Scrapy来爬取新浪微博的用户信息、用户的微博内容以及这些微博的评论和转发，这涉及到网络爬虫的基本原理、Scrapy组件的使用、网页解析以及数据存储等多个知识点。首先，了解网络爬虫的基本...
Python Scrapy：爬取动态加载的内容
2025-04-08 17:12

AI Python 编程的博客深入分析动态内容加载的技术原理系统介绍Scrapy框架处理动态内容的各种方法提供实际可行的解决方案和最佳实践探讨相关的高级话题和优化技巧本文涵盖从基础到进阶的内容，适合不同层次的开发者参考。背景介绍：建立...
Python爬取电影榜单Top100并保存csv文件（附源码下载）
2023-03-20 17:12

项目功能：使用Python爬取Top100电影榜单数据并保存csv文件，需要的小伙伴们下载源码做参考即可。开发工具 Python版本： 3.6 相关模块： requests模块、time模块、parsel模块、csv模块。操作：浏览器中打开...
Python基于Scrapy爬取www.rkpass.cn题目.zip
2025-10-15 08:49

Python基于Scrapy爬取特定网站的数据是一个复杂的过程，它涉及到了数据抓取、处理、存储等多个环节。对于开发者来说，不仅需要有扎实的编程基础，还需要掌握网络爬虫相关的多种技能和知识，以及对法律法规有一定的...
scrapy爬取博客园文章，保存json和图片，2021.6.28可用
2021-06-28 07:45

在这个项目中，我们利用Scrapy来爬取博客园（CSDN）上的文章，并将获取的数据保存为JSON格式，同时下载相关的图片。首先，我们需要了解Scrapy的基本架构。Scrapy由多个组件组成，如Spiders、Item、Item Pipeline、...
基于Python Scrapy和ThinkPHP的NewsCollector网页内容采集工具设计源码
2024-10-04 18:53

该项目旨在提供一个高效、稳定的网页内容采集解决方案，它结合了Python Scrapy的强大网页爬取功能和ThinkPHP框架的后端处理能力，能够实现对大量网页内容的快速抓取和数据整理。项目中所包含的144个Python代码文件...
如何使用 Python 爬虫 Scrapy 获取网页（某度）内容？
2023-06-08 16:01

技术探索的博客如何使用 Python 爬虫 Scrapy 获取网页内容？
没有解决我的问题, 去提问

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？

3条回答 默认 最新

3条回答默认最新