小鬼web 2018-02-09 09:34 采纳率: 50%
浏览 2940
已采纳

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上?

如何利用scrapy爬取整个网页的内容并将内容保存到自己的服务器上?
现在我想到了两种方式:

1、直接把scrapy爬取到的字符串通过SQLAlchemy保存到mysql数据库。
这种方式我试过但是不知道是不是容量受限制的原因没有保存成功。(爬取到的其他字段都能保存成功,只有这个保存带标签的网页内容的字段没有保存成功。)

2、在自己的服务器上搭建一个ftp服务器。
将爬取到的网页保存到自己的服务器,在mysql中只保存网页在ftp中的路径。
这种方式还没试过,有点不知道怎么操作。

此外还有一个问题需要解决,爬取到的网页中会有一些图文混排的内容,对于这些图片应该怎么处理呢?我想把网页中引用的图片的url改成自己服务器上的地址,
这个操作应该怎么进行呢。

(现在脑子里很乱,请各位大神指教,上代码、提供思路或者推荐参考资料都行。拜托大家了,感谢感谢,撒花撒花~)

  • 写回答

3条回答 默认 最新

  • wodexinhao 2018-02-09 10:44
    关注
    1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的,你之所以没有成功,应该是因为你的数据库中的相应字段错了,整个网页内容都比较长,一般都是要用text字段,甚至是LongText)(最大长度4294967295个字元 (2^32-1)。
    2. 你的意思就是要把真个网页里面包括图片和css文件,js文件都保存到自己的服务器中,那就需要把爬取到的网页内容进行分析,把所有图片链接和css文件链接,js文件链接都下载下来,然后替换掉相应的路径,替换完再保存到服务器就可以了。这些都是很简单的,应该都会吧,不知道你具体是什么用途,所以回答可能不是很准确。
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 Linux环境下CA证书更新问题
  • ¥60 微信小程序如何上传QQ聊天文件
  • ¥300 开发的系统遭到无良商家的破解,请问如何防止再次发生,并追回损失
  • ¥15 java代码写在记事本上后在cmd上运行时无报错但又没生成文件
  • ¥15 关于#python#的问题:在跑ldsc数据整理的时候一直抱这种错误,要么--out识别不了参数,要么--merge-alleles识别不了参数(操作系统-linux)
  • ¥15 PPOCRLabel
  • ¥15 混合键合键合机对准标识
  • ¥100 现在不懂的是如何将当前的相机中的照片,作为纹理贴图,映射到扫描出的模型上
  • ¥15 魔霸ROG7 pro,win11.息屏后会显示黑屏,如图,如何解决?(关键词-重新启动)
  • ¥15 有没有人知道这是哪里出了问题啊?要怎么改呀?