qq_40805263 2018-11-11 18:20 采纳率: 41.7%
浏览 401

python的爬取html网页的疑问

 import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
 def __init__(self,provinces):
        self.provinces =provinces
 def  start_element(self,name,attrs):    
      pass
 def  end_element(self,name):
      pass
 def  char_data(self,text):
        self.provinces.append((text))

def get_provinces_entry(url):
  content = requests.get(url).content.decode('gb2312')
  start = content.find('<div class="area">')
  end = content.find('<div id="head-login" class="right login">')
  content = content[start:end].strip()
  provinces = []
  handler = DefaultSaxHandler(provinces)
  parser = ParserCreate()
  parser.StartElementHandler = handler.start_element
  parser.EndElementHandler = handler.end_element
  parser.CharacterDataHandler = handler.char_data
  parser.parse(content)
  return provinces

provinces = get_provinces_entry('https://www.sohu.com/a/134099257_654351')
print(provinces)

新手,刚写爬虫,但是一直显示错误,不知道哪里错了,怎么改正

  • 写回答

3条回答 默认 最新

  • ringkuang 2018-11-12 00:45
    关注

    你的代码缩进可能有问题, import requests self.provinces =provinces 都要向前进一个占位

    评论

报告相同问题?

悬赏问题

  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥15 stable diffusion
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误