python的爬取html网页的疑问

 import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
 def __init__(self,provinces):
        self.provinces =provinces
 def  start_element(self,name,attrs):    
      pass
 def  end_element(self,name):
      pass
 def  char_data(self,text):
        self.provinces.append((text))

def get_provinces_entry(url):
  content = requests.get(url).content.decode('gb2312')
  start = content.find('<div class="area">')
  end = content.find('<div id="head-login" class="right login">')
  content = content[start:end].strip()
  provinces = []
  handler = DefaultSaxHandler(provinces)
  parser = ParserCreate()
  parser.StartElementHandler = handler.start_element
  parser.EndElementHandler = handler.end_element
  parser.CharacterDataHandler = handler.char_data
  parser.parse(content)
  return provinces

provinces = get_provinces_entry('https://www.sohu.com/a/134099257_654351')
print(provinces)

新手，刚写爬虫，但是一直显示错误，不知道哪里错了，怎么改正

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ringkuang 2018-11-12 00:45
关注
你的代码缩进可能有问题， import requests self.provinces =provinces 都要向前进一个占位

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬取网页里面的xhr文件。 css html5 python
2019-05-07 20:14

回答 1 已采纳首先，在常规头部获取请求的url，然后查看请求方法，获取请求状态，如果是失败，就说明不是这个。然后，请求头部，将所有的headers放到requests的headers参数里面(可以包含cooki
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python 爬取静态静态静态网页
2022-03-23 06:20

qq_40141051的博客该文章是我在练习基础是写的一个小项目，爬取的是一个网站的图片（妹子才是学习的动力）。其中用到了线程和xpath等知识的应用，属于小白入门篇，各位大佬要是在浏览过程中发现可以优化的地方尽情留言，先给各位道谢...
python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
python爬取百度手机号网页 python 有问必答
2021-09-24 13:08

回答 2 已采纳可以用requests.post获取，需要将参数正确传递。代码可以这么写： import requests import time num=input('input cellphone number:
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python如何抓取网页里面的文字_python如何爬取网页中的文字
2021-02-10 06:26

你们可曾原谅他的博客用python进行爬取网页文字的代码：#!/usr/bin/python# -*- coding: utf-8 -*-import requestsimport re# 下载一个网页url = 'https://www.biquge.tw/75_75273/3900155.html'# 模拟浏览器发送http请求response = ...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取网页有乱码怎么解决_Python抓取网页乱码的解决方法分析
2020-11-24 11:02

weixin_39890102的博客 Python抓取网页乱码的原因及解决方法本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会...
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python爬取空气质量_python爬取全国空气质量信息
2020-12-17 19:07

weixin_39954569的博客使用gevent开启多个协程，加快爬取速度re模块或beautifulsoup模块。正则表达式解析与beautifulsoup解析两种解析方式我都会写出来。csv模块。用于将数据导出至csv文件内分析过程1.要爬取的页面的URL地址为：...
python 爬取_Python爬取电影天堂
2020-11-23 22:29

weixin_39847437的博客网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都...
没有解决我的问题, 去提问

悬赏问题

¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误

python的爬取html网页的疑问

3条回答 默认 最新

悬赏问题

3条回答默认最新