#博客爬虫,mongodb
目标网站:https://www.kingname.info/archives/。
将该网站的博客内容进行爬虫,包括文章标题、发布时间、文章分类、文章链接、文章正文(HTML格式)。爬取列表页第1页所有的文章标题和文章详情;要求使用MongoDB保存信息和使用Redis缓存请求;最后截取与正文相关的源代码并保存。
望博主能看到给点指点,先谢谢博主了!
#博客爬虫,mongodb
目标网站:https://www.kingname.info/archives/。
将该网站的博客内容进行爬虫,包括文章标题、发布时间、文章分类、文章链接、文章正文(HTML格式)。爬取列表页第1页所有的文章标题和文章详情;要求使用MongoDB保存信息和使用Redis缓存请求;最后截取与正文相关的源代码并保存。
望博主能看到给点指点,先谢谢博主了!