python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？

控制台信息
1.URL管理器：
class UrlManager (object):

def __init__(self):
    self.new_urls = set()
    self.old_urls = set()

def add_new_url(self, url):
    if url is None:
        return  # 如果没有新的URL则不进行添加
    if url not in self.new_urls and url not in self.old_urls:
        self.new_urls.add(url)

def add_new_urls(self, urls):
    if urls is None or len(urls) == 0:
        return
    for url in urls:
        self.add_new_url(url)

def get_new_url(self):
    return len(self.new_urls) != 0

def has_new_url(self):
    new_url = self.new_urls.pop()
    self.old_urls.add(new_url)
    return new_url

2.网页下载器：
import urllib.request
import urllib.response
class HtmlDownloader(object):
def download(self, url):

    if url is None:
        return None
    response = urllib.request.urlopen(url)
    if response.getcode() != 200:
        return None
    return response.read()

3.网页解析器：
# coding:utf-8
from bs4 import BeautifulSoup
import re
import urllib.parse
class HtmlParser(object):
def parser(self, page_url, html_content):
if page_url is None or html_content is None:
return
soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')
new_urls = self._get_new_urls(page_url, soup)
new_data = self._get_new_data(page_url, soup)
return new_urls, new_data

def _get_new_urls(self, page_url, soup):
new_urls = set()
# links = soup.find_all('a', href=re.compile(r"/item/\d+.htm"))
links = soup.find_all('a', href=re.compile(r"/item/(.*)"))
for link in links:
new_url = link['href']
new_full_url = urllib.parse.urljoin(page_url, new_url)
new_urls.add(new_url)
return new_urls

def get_new_data(self, page_url, soup):
res_data = {}
# url
res_data['url'] = page_url
# 标题

Python

（计算机程序设计语言）

# 简介

title_node = soup.find_all('dd', class='lemmaWgt-lemmaTitle-title').find('h1')
res_data['title'] = title_node.get_text()
summary_node = soup.find_all('div', class_='lemma-summary')
res_data['summmary'] = summary_node.get_text()
return res_data
4.页面输出：
class HtmlOutputer(object):

def __init__(self): self.datas=[] def collectData(self, data): if data is None: return self.datas.append(data) def output_html(self): fout = open('output.html', 'w') fout.write("<html>") fout.write("<body>") fout.write("<table>") for data in self.datas: fout.write("<tr>") fout.write("<td>%s</td>" % (data['url']).encode('utf-8')) fout.write("<td>%s</td>" % (data['title']).encode('utf-8')) fout.write("<td>%s</td>" % (data['summary']).encode('utf-8')) fout.write("</tr>") fout.write("</table>") fout.write("</body>") fout.write("</html>") fout.close()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
raygenyang 2017-12-07 15:26
关注
def get_new_url(self):
return len(self.new_urls) != 0

def has_new_url(self):
new_url = self.new_urls.pop()
self.old_urls.add(new_url)
return new_url

这两个函数定义反了吧
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

一个简单python爬虫,爬取百度百科python词条.zip
2024-01-01 23:46

这个分享包涵了我开发的Python爬虫工具项目，主要用于合法爬取某些网页信息。以下是主要内容：源代码：包括Python代码和相关脚本。这些代码展示了如何使用Python进行网页抓取、解析和数据提取。项目文件：除了...
Python爬虫实现爬取百度百科词条功能实例
2021-01-20 07:12

【Python爬虫实现爬取百度百科词条功能实例】在Python编程中，爬虫是一种用于自动抓取互联网上信息的程序，常用于数据挖掘、搜索引擎优化和市场研究等领域。本实例主要讲解如何使用Python编写爬虫来抓取百度百科中...
百度百科网络爬虫，爬取python词条相关页面的标题和简介。.zip
2024-03-01 13:00

数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫...
Python实现的百度百科词条爬虫项目-基于urllib和BeautifulSoup的轻量级网络爬虫-用于从百度百科Python词条页面开始自动爬取相关词条信息-通过递归方式抓取未.zip
2025-11-27 00:41

本文介绍了一个基于Python语言的网络爬虫项目实例，该项目旨在从百度百科Python词条页面开始，自动爬取相关词条信息，特别强调了使用urllib和BeautifulSoup库实现的轻量级网络爬虫。 urllib是Python的一个内置库，...
Python-入门级爬虫爬取百度百科词条和简介
2019-08-10 07:40

本项目“Python-入门级爬虫爬取百度百科词条和简介”旨在为初学者提供一个基础的爬虫实战案例，通过学习，你可以了解Python爬虫的基本原理和操作流程。首先，我们要介绍Python中的几个核心爬虫库。BeautifulSoup是...
Python爬虫开发与项目实战-基础爬虫爬取百度百科词条标题-编程项目案例解析实例详解课程教程.pdf
2023-03-27 20:32

【Python爬虫开发与项目实战】中的基础爬虫是一个简单的编程项目，旨在教授初学者如何爬取网页数据，特别是从百度百科中抓取特定信息。在这个实战案例中，我们将学习如何构建一个爬虫来获取100个百度百科词条的标题...
python爬取百度百科表格_第一个python爬虫（python3爬取百度百科1000个页面）
2020-12-03 06:33

weixin_39737317的博客以下内容参考自：http://www.imooc.com/learn/563一、爬虫简介爬虫：一段自动抓取互联网信息的程序爬虫可以从一个url出发，访问其所关联的所有的url。并从每个url指向的网页中，获取我们所需要的信息。二、简单爬虫...
利用Python爬取百度百科词条并生成词云图
2024-12-16 11:27

利用Python爬取百度百科词条并生成词云图的过程，涵盖了网络爬虫、文本处理和数据可视化三个重要的数据处理环节。通过对这三个环节的详细操作，不仅可以获得我们想要的词云图，还能够深入理解数据抓取、清洗和可视化...
python3爬取1000个百度百科页面源码
2018-10-11 03:31

本项目标题为“python3爬取1000个百度百科页面源码”，意味着它是一个使用Python 3语言编写的程序，目标是抓取1000个百度百科页面的HTML源代码。通过分析这个项目，我们可以学习到以下几个关键知识点： 1. **Python...
Python 爬虫实战：百度百科词条内容抓取（基础到进阶完整教程）
2025-07-22 16:43

西攻城狮北的博客在当今数字化时代，数据是驱动业务发展的核心资源之一。...本文将从基础到进阶，详细介绍如何使用 Python 爬虫抓取百度百科词条内容，帮助读者掌握爬虫技术的核心要点，并能够将其应用于实际项目中。
没有解决我的问题, 去提问

python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？

Python

（计算机程序设计语言）

6条回答 默认 最新

6条回答默认最新