《用Python写网络爬虫》1.4.2网站地图爬虫代码运行结果与书上的不同的原因

代码如下：

import urllib2
import re

def download(url,user_agent='wswp',num_retries=2):
    print 'Downloading:',url
    headers={'User-agent':user_agent}
    request=urllib2.Request(url,headers=headers)
    try:
        html=urllib2.urlopen(request).read()
    except urllib2.URLError as e:
        print 'Download error:',e.reason
        html=None
        if num_retries>0:
            if hasattr(e,'code') and 500<=e.code<600:
                return download(url,user_agent,num_retries-1)
    return html

def crawl_sitemap(url):
    sitemap=download(url)
    links=re.findall('<loc>(.*?)</loc>',sitemap)
    for link in links:
        html=download(link)

crawl_sitemap('http://example.webscraping.com/sitemap.xml')

运行结果：

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-12-06 08:24
关注
打印一下html估计返回的内容跟教材原来访问的不同了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python flask_socketio 连接异常报错 flask html5 python
2023-01-07 00:53

回答 1 已采纳客户端的使用了 Socket.IO 或 Engine.IO protocols 不支持的版本，建议升级版本即可。下载最新或次新的版本即可，新版本都是向下兼容的，所以下新的版本一般都没有错。望采纳，望
使用gin + go-template的相同代码但结果不同 html
2015-08-14 08:21

回答 1 已采纳 This is a bug in Go, and has been slated to be fixed in 1.7 as of March 2016 (Also partially addre
第一次运行Sandboxie失败，希望可以帮看下原因其他改行学IT 系统安全
2022-10-17 01:39

回答 1 已采纳 1.驱动不兼容win11。2.没有右击以管理员身份运行。
用Python写网络爬虫.pdf
2017-08-20 22:57

1．4．2　网站地图爬虫　12 1．4．3　ID遍历爬虫　13 1．4．4　链接爬虫　15 1．5　本章小结　22 第2章　数据抓取　23 2．1　分析网页　23 2．2　三种网页抓取方法　26 2．2．1　正则表达式　26 2．2．2　Beautiful...
求一个低版本mysqlclient的安装包 django mysql python 数据挖掘
2020-03-12 20:27

回答 1 已采纳 https://pypi.org/project/mysqlclient/1.4.2.post1/#files 你要的在里面
pycharm报错如下 pycharm python tensorflow
2022-07-13 22:17

回答 5 已采纳版本环境什么的都没啥问题的话，如果是复现别人的代码，看看是不是有原作者的文档没有放在同一个目录下
Go程序未使用1.4.2静态链接
2015-06-20 12:43

回答 1 已采纳 More searching turned up this thread in the golang issue tracker about being unable to statically
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
为什么JQuery Code无法在Server上运行？ html javascript jquery php
2017-09-22 16:49

回答 1 已采纳 You use Protocols http://... in your page to replace it with a url of https://.... <scri
IBM JDK1.4.2 javacore分析原因
2009-10-20 14:26

回答 3 已采纳 signal 11就是SIGSEGV，也就是所谓segfault或者全称叫segmentation fault。通常是出现空指针问题了。不过居然在库的native部分遇到segfault就core d
spring 与 shiro包版本冲突问题 java spring
2022-05-16 15:27

回答 1 已采纳将 <dependency> <groupId>org.apache.shiro</groupId>
用Python写网络爬虫PDF-理查德劳森（Richard Lawson）
2017-11-16 10:55

1.4.2 网站地图爬虫 12 1.4.3 ID遍历爬虫 13 1.4.4 链接爬虫 15 1.5 本章小结 22 第2章数据抓取 23 2.1 分析网页 23 2.2 三种网页抓取方法 26 2.2.1 正则表达式 26 2.2.2 Beautiful Soup 28 2.2.3 Lxml ...
导入对象是预期的Golang 1.4.2中的错误
2015-03-09 02:59

回答 2 已采纳 Just delete the old pkg files, usually it upgrades automatically though. rm -rf $GOPATH/pkg/
用python写网络爬虫第2版 pd_用Python写网络爬虫(第2版)
2020-12-15 22:10

weixin_39861920的博客用Python写网络爬虫(第2版)电子书畅销的Python网络爬虫发实战图书全新升级版，上一版年销量近40000册。针对Python 3.6版本编写。提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障...
python网络爬虫案例_《用python写网络爬虫》随书源码
2020-11-24 05:31

weixin_39942213的博客【实例简介】【实例截图】【核心代码】目录第1章网络爬虫简介1.1 网络爬虫何时有用.......................1.2 网络爬虫是否合法 ……………………………………………………………………·21.3 背景调研…………...
用python写网络爬虫第二版epub_用Python写网络爬虫
2020-12-06 01:39

weixin_39846361的博客第 1章　网络爬虫简介 11.1　网络爬虫何时有用　11.2　网络爬虫是否合法　21.3　Python 3　31.4　背景调研　41.4.1　检查robots.txt　41.4.2　检查网站地图　51.4.3　估算网站大小　61.4.4　识别网站所用技术　71.4....
python网络爬虫权威指南(第2版)pdf_用Python写网络爬虫(第2版) PDF 下载
2020-11-20 20:28

weixin_39987313的博客资料目录：第 1章　网络爬虫简介 11.1　网络爬虫何时有用　11.2　网络爬虫是否合法　21.3　Python 3　31.4　背景调研　41.4.1　检查robots.txt　41.4.2　检查网站地图　51.4.3　估算网站大小　61.4.4　识别网站所用...
Python网络爬虫教程详解.pdf
2021-08-06 23:21

1.4.2 爬虫的基本流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 爬虫与反爬虫. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.1 ...
Python 网络爬虫及数据可视化
2021-01-11 18:47

BoBo玩ROS的博客 1.2 网络爬虫 2 1.3 数据可视化 2 1.4 Python环境介绍 2 1.4.1 简介 2 1.4.2 特点 3 1.5 扩展库介绍 3 1.5.1 安装模块 3 1.5.2 主要模块介绍 3 ① pandas模块 3 ② requests模块 4 ③ bs4模块 4 ④ selenium模块 4 ...
零基础学Python网络爬虫案例实战全流程详解（入门与提高篇）
2024-01-08 12:18

怪我冷i的博客笔者编写的《Python金融大数据挖掘与分析全流程...笔者由此萌生了一个想法：专门针对Python爬虫技术编写一套书籍，在保留之前核心内容的基础上，新增更多实战案例，方便读者在练中学，并体会Python爬虫在实战中的应用。
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器