任务要求如下:
爬取蜗牛笔记上全部帖子信息
蜗牛笔记-首页
http://www.woniuxy.com/note/page-1
具体爬取信息:标题 日期 阅读数量
将结果存为csv文件
要求框架如下:
URL管理器编写
资源下载器编写
HTML解析器的编写
访问
蜗牛笔记-首页
http://www.woniuxy.com/note/page-1%E5%88%86%E6%9E%90%E9%A1%B5%E9%9D%A2%E6%83%85%E5%86%B5
分析列表链接和详情链接的不同
资源存储器的编写
爬虫调度器的编写
爬取结果如下: