关于爬虫百度百科问题，求教各位。代码如下，运行提示错误。

-- coding: utf-8 --

"""
Spyder Editor

This is a temporary script file.
"""
import urllib2
from bs4 import BeautifulSoup
import re
import urlparse

class UrlManager(object):
def init(self):
self.new_urls = set()
self.old_urls = set()

def add_new_url(self,url):
    if url is None:
        return
    if url not in self.new_urls and url not in self.old_urls:
        self.new_urls.add(url)

def add_new_urls(self,urls):
    if urls is None or len(urls) == 0:
        return
    for url in urls:
        self.add_new_url(url)

def has_new_url(self):
    return len(self.new_urls) != 0

def get_new_url(self):
    new_url = self.new_urls.pop()
    self.old_urls.add(new_url)
    return new_url

class HtmlDownloader(object):
def download(self,url):
if url is None:
return None

    response = urllib2.urlopen(url)

    if response.getcode() != 200:
        return None

    return response.read()

class HtmlParser(object):
def _get_new_urls(self,page_url,soup):
new_urls = set()
links = soup.find_all('a',href = re.compile(r'/item/(.*)'))
for link in links:
new_url = link['href']
new_full_url = urlparse.urljoin(page_url,new_url)
new_urls.add(new_full_url)
return new_urls

def _get_new_data(self,page_url,soup):
    res_data = {}

    #url
    res_data['url'] = page_url

    # <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
    title_node = soup.find('dd',class_ ="lemmaWgt-lemmaTitle-title").find("h1")
    res_data['title'] = title_node.get_text()

    #<div class="lemma-summary" label-module="lemmaSummary">
    summary_node = soup.find('div',class_ = "lemma-summary")
    res_data['summary'] = summary_node.get_text()

    return res_data

def parse(self,page_url,html_cont):
    if page_url is None or html_cont is None:
        return

    soup = BeautifulSoup(html_cont,'html_parser',from_encoding='utf-8')
    new_urls = self._get_new_urls(page_url,soup)
    new_data = self._get_new_data(page_url,soup)
    return new_urls,new_data

class HtmlOutputer(object):
def init(self):
self.datas = []

def collect_data(self,data):
    if data is None:
        return
    self.datas.append(data)

def output_html(self):
    fout = open('output.html','w')

    fout.write("<html>")
    fout.write("<body>")
    fout.write("<table>")

    for data in self.datas:
        fout.write("<tr>")
        fout.write("<td>%s</td>"% data['url'])
        fout.write("<td>%s</td>"% data['title'].encode('utf-8'))
        fout.write("<td>%s</td>"% data['summary'].encode('utf-8'))
        fout.write("</tr>")

    fout.write("</table>")
    fout.write("</body>")
    fout.write("</html>")

    fout.close()

爬虫总调度程序

class SpiderMain(object):

# 构造函数初始化url管理器、HTML下载器、HTML解析器、输出四个对象

def init(self):

# url管理器

self.urls = UrlManager()

# url下载器

self.downloader = HtmlDownloader()

# url解析器

self.parser = HtmlParser()

# 最终的输出

self.outputer = HtmlOutputer()

# 爬虫调度程序  
def craw(self, root_url):  
    count = 1  
    # 添加入口URL  
    self.urls.add_new_url(root_url)  
    while self.urls.has_new_url():  
        try:  
            # 取出新的URL  
            new_url = self.urls.get_new_url()  
            # 下载该url对应的页面  
            print("craw %d : %s" % (count, new_url))  
            html_cont = self.downloader.download(new_url)  
            # 解析该url对应的页面，得到新的链接和内容  
            new_urls, new_data = self.parser.parse(new_url, html_cont)  
            # 将新url添加到url管理器中  
            self.urls.add_new_urls(new_urls)  
            # 将解析到的内容收集起来  
            self.outputer.collect_data(new_data)  

            if count == 1000:  # 爬取1000个页面即可  
                break  
            count = count + 1  

        except:  
            print("craw fail")  
    # 最终输出爬取目标的内容  
    self.outputer.output_html()

主函数启动爬虫

if name=="__main__":

# root_url = "http://baike.baidu.com/item/Python/407313?fr=aladdin"

root_url = "http://baike.baidu.com/item/Python/407313?fr=aladdin"

obj_Spider = SpiderMain()

obj_Spider.craw(root_url)

    提示runfile('C:/Users/sun/.spyder/temp.py', wdir='C:/Users/sun/.spyder') craw 1 : http://baike.baidu.com/item/Python/407313?fr=aladdin craw fail

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
eagle1024 2017-10-19 13:59
关注
你先搞个简单的试试能不能用urlopen访问百度百科，一般大的网站都做了防爬处理。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫代码运行_怎么运行python爬虫程序
2020-12-16 15:31

weixin_39761696的博客 python爬虫程序运行有两种方式：1、在python交互式命令行下直接输入python代码回车运行；2、在命令行中使用“python 文件名.py”。python运行有两种方式，一种是在python交互式命令行下运行；另一种是使用文本编辑器...
81个Python爬虫源代码
2018-12-13 14:23

81个Python爬虫源代码，内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创Python一对一辅导的博客（提示：需要先安装依赖: urllib3, pandas） pip install urllib3 pandas 以招行外汇页面为例： Python 代码如下： # file_name: excel_crawler_urllib3.py import urllib3 import pandas as pd def download_...
Python爬虫完整代码拿走不谢
2023-03-22 09:46

q56731523的博客对于新手做Python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。
MCP是什么？让AI每次少写100行爬虫代码
2025-11-24 16:12

是Yu欸的博客本次测评展示了托管抓取平台在面对反爬与动态加载时的可靠性优势，并演示了搭配 Coplit 后的高效...本地爬虫（Python）：使用 requests 发起请求并用 BeautifulSoup 解析 DOM，按预期抽取标题、价格、图片等常见字段。
Python爬虫开源项目代码分享，100个
2021-11-09 00:20

hwtl070359898的博客今天博主给大家带来了一份大礼，100个Python爬虫开源项目代码分享，都是完整的项目源码！！！本文下面所有的爬虫项目都有详细的配套教程以及源码，都已经打包好上传到百度云了，百度云下载链接在文章结尾处！ ...
用Python爬取百度图片：手把手教你写一个图片爬虫
2025-07-24 09:24

鲸落✗的博客今天就跟大家分享这个实用的百度图片爬虫，它能自动搜索并下载你想要的任何图片。这个爬虫虽然只有100多行代码，但包含了请求处理、JSON解析、文件操作等实用技巧。我会详细解释每个部分的实现思路，让你不仅能使用...
爬虫反爬：一文掌握使用 AST 技术还原混淆的代码实战
2025-02-28 10:43

数据知道的博客抽象语法树是源代码的树状表示，每个节点代表代码中的一个结构。通过 AST，开发者可以以结构化的方式分析和操作代码，而无需直接处理...在实际应用中，需根据混淆模式灵活调整还原策略，并注意代码的合法性和性能问题。
100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）
2025-03-07 21:25

袁袁袁袁满的博客 100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）
python爬虫入门（所有演示代码，均有逐行分析！）
2024-05-10 02:04

阿勉要睡觉的博客网络爬虫，也称为网页蜘蛛或网络机器人，是一种自动抓取万维网信息的程序或脚本。爬虫的基本原理是通过模拟人的网络行为，如点击按钮、查看数据等，来获取服务器上的数据。这些数据可以是文本、图片、视频等多种格式...
没有解决我的问题, 去提问

关于爬虫百度百科问题，求教各位。代码如下，运行提示错误。

-*- coding: utf-8 -*-

爬虫总调度程序

主函数启动爬虫

4条回答 默认 最新

-- coding: utf-8 --

4条回答默认最新