python的爬取html网页错误

 import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def __init__(self, provinces):
        self.provinces = provinces


    def start_element(self, name, attrs):
        pass

    def end_element(self, name):
        pass


    def char_data(self, text):
        self.provinces.append((text))

def get_province_entry(url):

    content = requests.get(url).content.decode('gb2312')

    start = content.find('<table height="22" cellSpacing="0" cellPadding="0" width="710" border="0">')
    end = content.find('<tr align="middle">')
    content = content[start:end ].strip()
    print(content)
    provinces = []

    handler = DefaultSaxHandler(provinces)

    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data

    parser.Parse(content)

    return provinces

provinces = get_province_entry('http://www.ip138.com/post/')
print(provinces)

我想问下为什么打印出空值，我觉得是这部分错了，但是说不出哪里错

  def char_data(self, text):
        self.provinces.append((text))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-11-12 06:55
关注
因为源码中

<table height="22" cellSpacing="0" cellPadding="0" width="710" border="0">

下一行就是

<tr align="middle">

，所以造成content是空值
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求助：python爬取12306车票信息总是出现错误 python
2020-02-01 11:55

回答 3 已采纳抓包看下，返回的数据不是标准的json，可能是返回了错误提示信息，如果那样，先看下提示了什么。12306经常升级，你直接拷贝以前别人写的代码肯定不行，建议你抓包以后根据浏览器的提交，自己写，最好用 w
用python爬取小说时，拼接url类型错误 python
2022-01-10 18:52

回答 1 已采纳 li_url = "https://www.shicimingju.com" + link.xpath('./a/@href')[0] 这样子就行了
python爬取二手房信息的问题 python
2023-03-26 10:47

回答 3 已采纳根据您提供的代码和报错信息，问题出现在 title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0] 这一行，数组越界了。这可能是由于某些 li 标签没有
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
跟着教学视频用python爬取房天下数据出错 python
2021-03-07 23:39

回答 3 已采纳 import requests as req res=req.get("https://zj.esf.fang.com/") from bs4 import BeautifulSoup soup=B
关于#python#的问题：用Python爬取网页时，直接运行for语句下的代码可正常运行，加入for语句进行循环则报错 python 爬虫
2023-01-04 12:32

回答 3 已采纳 01.html和1.html很显然不是同一个网址，你在错误的网址下当然抓不到东西，是空的改成 target = f"http://paper.people.com.cn/rmrb/html/20{ye
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
Python爬取html表格数据
2023-01-04 20:29

zlsbm的博客 Python 爬取网页表格中的数据，并对解析错误的数据进行修复处理。用到的库：Requests，BeautifulSoup，Pandas.
爬取html入mysql插入失败 html5 mysql python
2022-06-02 13:59

回答 2 已采纳你的插入的value值和数据库表的数据格式不一致吧，你的value好像有好几个值，但是插入的数据库对应的只有三个。格式不对，所有插入数据不行
python爬取猫眼top写入excel 提示string index out of range？ list python
2021-04-07 23:47

回答 2 已采纳明显跑到那里时超限了，data里元素数量肯定不到五个，输出一下看看data具体是什么就知道了，问题应该是你get_one_page(）里，你解析出来的数据有一组是特殊的，不到五个
python爬小说，正文怎么都换不了行，怎么办？ python
2022-04-17 19:49

回答 1 已采纳 1、你的循环没有退出的语句，没有页数，就出错了。 2、正文不换行的问题改一下代码 for x in text: f.write(x) f.write('\r\n') # 改
Python 爬取网页数据的两种方法
2021-09-04 21:08

菇毒的博客网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；...Python是最常见的网页抓取语言之一；对于任何网络抓取活动，Python被认为是确保此过程无任何错误进行的最佳方法；
python爬虫爬取数据存储进数据库的问题 flask mysql python
2019-04-22 20:43

回答 3 已采纳首先，我建议你主键最好不要设在userId上。让ID自增长。然后把userId作为一个普通的字段。其次，我个人建议也不要设置外键关系。你可以通过把某一张表的ID放到另一张表里作为关联，但是不建议设
python爬虫爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
python爬取动态网页_Python实现爬取网页中动态加载的数据
2020-11-23 16:25

weixin_39762838的博客在使用python爬虫技术采集数据信息时，经常会遇到在返回的网页信息中，无法抓取动态加载的可用数据。例如，获取某网页中，商品价格时就会出现此类现象。如下图所示。本文将实现爬取网页中类似的动态加载的数据。1. ...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

python的爬取html网页错误

1条回答 默认 最新

悬赏问题

1条回答默认最新