《用Python写网络爬虫》1.4.2网站地图爬虫代码运行结果与书上的不同的原因

代码如下：

import urllib2
import re

def download(url,user_agent='wswp',num_retries=2):
    print 'Downloading:',url
    headers={'User-agent':user_agent}
    request=urllib2.Request(url,headers=headers)
    try:
        html=urllib2.urlopen(request).read()
    except urllib2.URLError as e:
        print 'Download error:',e.reason
        html=None
        if num_retries>0:
            if hasattr(e,'code') and 500<=e.code<600:
                return download(url,user_agent,num_retries-1)
    return html

def crawl_sitemap(url):
    sitemap=download(url)
    links=re.findall('<loc>(.*?)</loc>',sitemap)
    for link in links:
        html=download(link)

crawl_sitemap('http://example.webscraping.com/sitemap.xml')

运行结果：

图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-12-06 08:24
关注
打印一下html估计返回的内容跟教材原来访问的不同了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用python写网络爬虫第2版 pd_用Python写网络爬虫(第2版)
2020-12-15 22:10

weixin_39861920的博客用Python写网络爬虫(第2版)电子书畅销的Python网络爬虫发实战图书全新升级版，上一版年销量近40000册。针对Python 3.6版本编写。提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障...
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
用Python写网络爬虫PDF-理查德劳森（Richard Lawson）
2017-11-16 10:55

1.4.2 网站地图爬虫 12 1.4.3 ID遍历爬虫 13 1.4.4 链接爬虫 15 1.5 本章小结 22 第2章数据抓取 23 2.1 分析网页 23 2.2 三种网页抓取方法 26 2.2.1 正则表达式 26 2.2.2 Beautiful Soup 28 2.2.3 Lxml ...
python网络爬虫案例_《用python写网络爬虫》随书源码
2020-11-24 05:31

weixin_39942213的博客【实例简介】【实例截图】【核心代码】目录第1章网络爬虫简介1.1 网络爬虫何时有用.......................1.2 网络爬虫是否合法 ……………………………………………………………………·21.3 背景调研…………...
python网络爬虫权威指南(第2版)pdf_用Python写网络爬虫(第2版) PDF 下载
2020-11-20 20:28

weixin_39987313的博客资料目录：第 1章　网络爬虫简介 11.1　网络爬虫何时有用　11.2　网络爬虫是否合法　21.3　Python 3　31.4　背景调研　41.4.1　检查robots.txt　41.4.2　检查网站地图　51.4.3　估算网站大小　61.4.4　识别网站所用...
用python写网络爬虫第二版epub_用Python写网络爬虫
2020-12-06 01:39

weixin_39846361的博客第 1章　网络爬虫简介 11.1　网络爬虫何时有用　11.2　网络爬虫是否合法　21.3　Python 3　31.4　背景调研　41.4.1　检查robots.txt　41.4.2　检查网站地图　51.4.3　估算网站大小　61.4.4　识别网站所用技术　71.4....
Python网络爬虫教程详解.pdf
2021-08-06 23:21

1.4.2 爬虫的基本流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 爬虫与反爬虫. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.1 ...
python爬虫详解
2021-07-11 21:56

穆瑾轩的博客 python爬虫简介 1、基本概念 1.1、什么是爬虫网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网...
零基础学Python网络爬虫案例实战全流程详解（入门与提高篇）
2024-01-08 12:18

怪我冷i的博客笔者编写的《Python金融大数据挖掘与分析全流程...笔者由此萌生了一个想法：专门针对Python爬虫技术编写一套书籍，在保留之前核心内容的基础上，新增更多实战案例，方便读者在练中学，并体会Python爬虫在实战中的应用。
Python 网络爬虫及数据可视化
2021-01-11 18:47

BoBo玩ROS的博客 1.2 网络爬虫 2 1.3 数据可视化 2 1.4 Python环境介绍 2 1.4.1 简介 2 1.4.2 特点 3 1.5 扩展库介绍 3 1.5.1 安装模块 3 1.5.2 主要模块介绍 3 ① pandas模块 3 ② requests模块 4 ③ bs4模块 4 ④ selenium模块 4 ...
没有解决我的问题, 去提问

《用Python写网络爬虫》1.4.2网站地图爬虫代码运行结果与书上的不同的原因

2条回答 默认 最新

2条回答默认最新