python爬虫爬取蜗牛笔记上全部帖子信息，怎么修改

题目是：爬取蜗牛笔记上全部帖子信息

http://www.woniuxy.com/note/page-1

具体爬取信息：标题日期阅读数量文章类型

应该怎么改目前运行啥也没有

spider_main

from task2_woniu.url_manager_zwj import URLManager
from task2_woniu.data_output_zwj import DataOutput
from task2_woniu.html_downloader_zwj import HTMLDownloader
from task2_woniu.html_parser_zwj import HTMLParser
import time
class SpiderMain:
    def __init__(self):
        self.manager=URLManager()
        self.parser=HTMLParser()
        self.downloader=HTMLDownloader()
        self.output=DataOutput()

    def crawl(self,root_url):
        pass

def crawl(self,root_url):
    self.manager.add_new_url(root_url)
    while self.manager.has_new_url:
        try:
            new_url=self.manager.get_new_url()
            print("开始抓取{}".format(new_url))
            html=self.downloader.download(url=new_url)
            new_urls,data=self.parser.parser(new_url,html)
            if data:
                #self.output.save_csv(data)
                self.output.collect_data(data)

            if new_urls:
                self.manager.add_new_urls(new_urls)

            print("已抓取()个链接，还有()个未抓取",new_urls,data)
            time.sleep(5)
        except Exception as e:
            print(e,",crawl failed")
    self.output.output_file()


if __name__=='__main__':
    spider_main=SpiderMain()
    spider_main.crawl("http://www.woniuxy.com/note/page-1")

html_parser

import re
from bs4 import BeautifulSoup
from urllib.parse import urljoin
class HTMLParser:
    def __init__(self):
        self.base_url="http://www.woniuxy.com/"

    def parser(self,page_url,html_content):
        try:
            html=etree.HTML(html_content)
            new_urls=None
            new_data=None
            if ("page" in page_url):
                new_urls=self._get_new_urls(html)
            else:
                new_data=self._get_new_data(html)
            return new_urls,new_data
        except Exception:
            return [page_url],None

    def _get_new_urls(self,html):
        new_urls=set()
        detail_links=html.xpath("//div[@id='content']/a")
        for link in detail_links:
            new_url=link.get('href')
            new_full_url=urljoin(self.base_url,new_url)
            print('新文章链接:'+new_full_url)
            new_urls.add(new_full_url)

        if len(html.xpath("//*[text()='下一页']")) !=0:
            next_page_link=html.xpath("//*[text()='下一页']")[0]
            print(next_page_link)
            print('下一页链接:'+urljoin(self.base_url,next_page_link.get('href')))
            new_urls.add(urljoin(self.base_url,next_page_link.get('href')))
            return new_urls
        else:
            return ""

    def _get_new_data(self,html):
        bs = BeautifulSoup(html, 'lxml')
        data=dict()
        title=bs.find_all(class_="col-lg-10 col-md-10 col-sm-10 col-xs-10 title")[0].string.strip()
        data['title']=title.get_text()
        #data['title']=html.xpath("//div[contains(@class,'title')]")[0].text.strip()
        info = bs.find_all(class_="col-lg-12 col-md-12 col-sm-12 col-xs-12 info")
        date_num = info[0].string.strip().find("日期：")
        read_num = info[0].string.strip().find("阅读：")
        end_num = info[0].string.strip().find("消耗积分：")
        type_num=info[0].string.strip().find("文章类型：")
        date = info[0].string.strip()[date_num + 3:read_num].strip()
        read = info[0].string.strip()[read_num + 3:end_num - 4].strip()
        type=info[0].string.strip()[type_num].strip()

        data['date']=date.get_text()
        #data['date']=html.xpath("//div[contains(@class,'date')]")[0].text.strip()
        data['readcount']=read.get_text()
        #data['readcount']=html.xpath("//div[contains(@class,'readcount')]")[0].text.strip()
        data['type']=type.get_text()
        return data

url_manager

class URLManager:
    def __init__(self):
        # 定义用于保存待爬取URL地址的集合
        self.new_urls=set()
        # 定义用于保存已爬取URL地址的集合
        self.old_urls=set()


    #判断集合中是否还有待爬取的url地址
    def has_new_url(self):
        #判断是否还有待爬的新url地址
        return self.new_url_size() != 0

    #获取一个待爬取的url地址
    def get_new_url(self):
        #从待爬url地址列表取出一个地址
        new_url=self.new_urls.pop()
        #然后将这个url地址放入到已爬队列中
        self.old_urls.add(new_url)
        return new_url

    #新增一个待爬取的url地址
    def add_new_url(self,url):
        if url and url not in self.old_urls:#url非空且不在已爬url网址集合中
            self.new_urls.add(url)#添加到待爬网址集合中


    def add_new_urls(self,urls):
        if urls is None or len(urls) == 0:
            print('url地址为空或长度为0，添加new urls失败')
            return
        for url in urls:
            self.add_new_url(url)

    def new_url_size(self):
        return len(self.new_urls)

    def old_url_size(self):
        return len(self.old_urls)

html_downloder

import requests
from faker import Faker
class HTMLDownloader:
    def __init__(self):
        fake=Faker()
        self.user_agent=fake.user_agent()

    def download(self,url):
        if url:
            headers={'User-Agent':self.user_agent}
            r=requests.get(url,headers=headers)
            if r.status_code ==200:
                r.encoding="utf-8"
                return r.text
            return None

data_output


import csv
class DataOutput:
    def __init__(self):
        self.datas=[]

    def store_data(self,data):
        if data is None:
            return
        self.datas.append(data)

    def output_file(self):
        header = ['标题', '发布时间', '阅读次数']
        with open('zwj.csv', "w", newline="", encoding="utf-8") as f:
            writer = csv.DictWriter(f, fieldnames=header)  
            writer.writeheader()  
            writer.writerows(self.datas)  
        print("数据已经写入成功！！！")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
碳墨 2023-11-01 03:16
关注
那些数据应该是动态的吧

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 爬虫学习
2018-07-26 10:32

蜗牛旅行的博客 1、网络爬虫，简单的就是将网页里面有用的数据爬取下来，将非结构化的网页数据转化成结构化的信息，并且将信息保存下来。（二）网络爬虫的架构 1、爬虫的架构 (三)安装python以及所需库（1）安装python本...
Python从入门到入坑（黑马课程）
2023-11-27 16:47

蜗牛其实也很努力的博客变量名不应过长，通常应该尽量简短且具有描述性 Python有一些保留字，这些保留字被编程语言预先定义，不能用作变量名根据PEP 8，变量名应该用小写字母，并且可以使用下划线来分隔单词变量函数 input函数用户输入...
2025-2026年最值得选择的Java、Python毕业设计选题大全：1000个热门选题推荐✅✅✅
2025-05-28 18:30

雷神定制开发的博客基于python批量运维管理系统设计与实现基于Python的django框架开发的在线电影网站系统基于Python的学生宿舍管理系统的设计与实现基于python的影片数据爬取与数据分析基于Python的数据分析岗位招聘信息爬取与分析...
求均值在python_python计算均值
2020-12-16 00:09

weixin_39559079的博客文章【方向】 2017-10-12 3371浏览量 Python爬虫(四)——开封市58同城数据模型训练与检测前文参考： Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三...
python求均值有限存储量_python计算均值
2020-12-28 19:56

狮子坤的博客文章【方向】 2017-10-12 3375浏览量 Python爬虫(四)——开封市58同城数据模型训练与检测前文参考： Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三...
Python 全栈开发从入门到实战进阶课程
2024-10-09 20:28

码视野的博客本课程涵盖了 Python 编程的多个方面，包括编程基础、数据结构、函数与装饰器、面向对象编程、文件 IO 和文本处理、并发编程、网络编程、数据库、前端开发、爬虫以及前后端分离博客项目等内容。通过丰富的视频讲解和...
2024-2026年最值得选择的Java毕业设计选题大全：1000个热门选题推荐✅✅
2024-08-18 20:21

程序员lxj的博客主要技术：SpringBoot、Vue、SSM、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、机器学习等设计与开发。推荐订阅 Java精品实战案例《1000套》文末获取源码+数据库感兴趣的可以先收藏起来，...
2024-2026年最值得选择的Java毕业设计选题大全：1000个热门选题推荐✅✅✅
2024-08-14 21:29

java学长code的博客博主介绍：✌全网粉丝10W+,CSDN作者、博客专家、全栈领域优质创作者，博客之星、平台优质作者、专注于Java、小程序、python等技术领域和毕业项目实战✌毕业设计选题非常重要！非常重要！非常重要！所以，建议对课题...
2023-2025年最值得选择的Java毕业设计选题大全：1000个热门选题推荐✅✅✅
2024-07-02 13:51

Java冲浪员的博客基于python批量运维管理系统设计与实现基于Python的django框架开发的在线电影网站系统基于Python的学生宿舍管理系统的设计与实现基于python的影片数据爬取与数据分析基于Python的数据分析岗位招聘信息爬取与分析...
2024-2025年计算机软件毕业设计大全：2000个精品毕设推荐✅
2024-10-28 13:49

码农飞哥的博客 python爬虫入门进阶 ❤️ 4. Ceph实战，从原理到实战应有尽有。 Ceph实战 ❤️ 5. Java高并发编程入门，打卡学习Java高并发。 Java高并发编程入门文章目录重要提示选题建议避免误区难度控制爆款的毕业设计 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月31日

python爬虫爬取蜗牛笔记上全部帖子信息 ，怎么修改

3条回答 默认 最新

问题事件

python爬虫爬取蜗牛笔记上全部帖子信息，怎么修改

3条回答默认最新