python HTMLParser问题

在看python核心编程第三版的时候遇到的问题

```import io
import formatter
from html.parser import HTMLParser
import http
import os
import sys
import urllib.request

from urllib.parse import urlparse,urljoin

class Retriever(object):
slots=('url','file')
def init(self,url):
self.url,self.file=self.get_file(url)

def get_file(self,url,default='index.html'):
    'Create usable local filename from URL'
    parsed=urlparse(url)
    host=parsed.netloc.split('@')[-1].split(':')[0]
    filepath='%s%s' % (host,parsed.path)
    if not os.path.splitext(parsed.path)[1]:
        filepath=os.path.join(filepath,default)
    linkdir=os.path.dirname(filepath)
    if not os.path.isdir(linkdir):
        if os.path.exists(linkdir):
            os.unlink(linkdir)
        os.makedirs(linkdir)
    return url,filepath
def download(self):
    'Download URL to specific named file'
    try:
        retval=urllib.request.urlretrieve(self.url,self.file)
    except (IOError,httplib.InvalidURL) as e:
        retval=(('*** ERROR: bad URL "%s": %s' % (self.url, e)),)
    return retval
def parse_links(self):
    'Parse out the links found in download HTML file'
    f=open(self.file,'rb')
    data=f.read()
    f.close()
    parser=HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter(io.StringIO())))
    parser.feed(data)
    parser.close()
    return parser.anchorlist

class Crawler(object):
count=0

def __init__(self, url):
    self.q=[url]
    self.seen=set()
    parsed=urlparse(url)
    host=parsed.netloc.split('@')[-1].split(':')[0]
    self.dom='.'.join(host.split('.')[-2:])

def get_page(self, url, media=False):
    'Download page & parse links, add to queue if nec'
    r=Retriever(url)
    fname=r.download()[0]
    if fname[0] == '*':
        print(fname,'...skipping parse')
        return
    Crawler.count += 1
    print('\n(',Crawler.count,')')
    print('URL:',url)
    print('FILE:',fname)
    self.seen.add(url)
    ftype=os.path.splitext(fname)[1]
    if ftype not in ('.htm', '.html'):
        return

    for link in r.parse_links():
        if link.startswith('mailto:'):
            print('...discarded, mailto link')
            continue
        if not media:
            ftype=os.path.splitext(link)[1]
            if ftype in ('.mp3', '.mp4', '.m4v', '.wav'):
                print('...discarded, media file')
                continue
        if not link.startswith('http://'):
            link=urljoin(url,link)
        print('*',link)
        if link not in self.seen:
            if self.dom not in link:
                print('...discarded, not in domain')
            else:
                if link not in self.q:
                    self.q.append(link)
                    print('...new, added to Q')
                else:
                    print('...discarded, already in Q')
        else:
            print('...discarded, already processed')
def go(self,media=False):
    'Process next page in queue (if any)'
    while self.q:
        url=self.q.pop()
        self.get_page(url,media)

def main():
if len(sys.argv) > 1:
url=sys.argv[1]
else:
try:
url=input('Enter starting URL: ')
except (KeyboardInterrupt, EOFError):
url=''
if not url:
return
if not url.startswith('http://') and not url.startswith('ftp://'):
url='http://%s/' % url
robot=Crawler(url)
robot.go()

if name=='__main__':
main()

这里报错HTMLParser的__init__()需要一个位置参数而给了它两个
看了下文档，好像这个类只有一个关键字参数，给的例子也是先自定义一个子类再实例化，那么书上这么写是什么意思？要怎么改？求解答

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
微云村 2017-11-28 00:22
关注
可以参考下这篇：http://blog.csdn.net/weixin_35955795/article/details/52823203，我也是初学者，希望对你有帮助

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

菜鸟求助：关于python的正则匹配问题？ python 正则表达式
2015-04-15 09:40

回答 2 已采纳给word字符串添加'.?.?'，生成一个最终的字符串作为正则表达式的pattern
引用HTMLParser提示markupbase没有属性ParserBase python 后端开发语言有问必答
2022-01-21 09:01

回答 2 已采纳 import HTMLParser更换为from html.parser import HTMLParser参考：问题解决：ModuleNotFoundError: N
termux qqbot 报错，如何解决？ python
2021-12-16 23:30

回答 1 已采纳库的定义改变了。修改一下用法 import html.parser; htmlUnescape = html.parser.HTMLParser().unescap 改成 import h
Python HTMLParser模块解析html获取url实例
2020-09-22 06:33

主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下
在写爬虫运用xlwt库将网页信息写入execl中遇到的问题 python 爬虫
2022-04-16 15:54

回答 1 已采纳你抓回来的数据比如name,是这样的[name,],不是字符串就是个列表，你把列表再往表格里写，当然写不进去，你爬下来的比如name之类用join都给变成单个字符串，就能写进去了
安装Pyinstaller的 error: subprocess-exited-with-error 错误 python
2022-08-03 21:53

回答 1 已采纳更新 setuptools 版本 pip3 uninstall setuptoolspip3 install setuptools
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
Python中使用HTMLParser解析html实例
2020-09-22 10:04

主要介绍了Python中使用HTMLParser解析html实例,本文直接给出使用示例,并总结出HTMLParser含有的方法分为两类,一类是需要显式调用的,而另一类不需显示调用,需要的朋友可以参考下
python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？ python 爬虫
2017-12-07 09:21

回答 6 已采纳 def get_new_url(self): return len(self.new_urls) != 0 def has_new_url(self): new_url =
jupyter notebook求解如下。 python
2023-04-03 07:23

回答 9 已采纳引用chatGPT作答，以下是完整的代码和解答： 1.根据文本text内容创建test.html文件我们可以使用Python的文件操作功能创建一个名为test.html的文件，并将HTML代码写入其中
爬取静态网页，部分内容缺失，<div pathmatch = >这一块全部消失了 html python 有问必答
2021-10-21 17:00

回答 1 已采纳题主是用requests获取网页内容？requests只能获取源代码，ajax动态生成的需要找到接口，requests请求接口获取数据。如果不是ajax动态生成，源代码里面又找不到，那么数据可能是放在
linux python htmlparser 安装,python pycparser安装程序
2021-05-16 06:21

花盆里的水的博客注意：在MacBookYosmite上运行Python2.7.10，尝试使用pip安装TensorFlow。任何尝试安装或升级“numpy”以解决“numpy”版本上的Tensorflow依赖性问题，都会产生如下错误：TypeError: __call__() takes exactly 2 ...
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 15:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
python htmlparser怎么用_HTMLParser模块怎么在python中使用
2021-03-17 01:32

HelloGithub的博客 HTMLParser模块怎么在python中使用发布时间：2021-02-09 09:29:29来源：亿速云阅读：82作者：Leah今天就跟大家聊聊有关HTMLParser模块怎么在python中使用，可能很多人都不太了解，为了让大家更加了解，小编给大家...
python htmlparser怎么用_一个Python HTMLParser的使用例子 | 学步园
2020-12-17 10:48

weixin_39538536的博客 /usr/bin/env pythonimport sysimport urllibimport HTMLParserclass CustomParser(HTMLParser.HTMLParser):selected = ('table', 'h1', 'font', 'ul', 'li', 'tr', 'td', 'a')def reset(self):HTMLParser.HTMLPar.....
Python的HTMLParser库的用法
2019-01-06 13:35

weixin_30777913的博客 HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频... ... ... 好在Python提供了HTMLParser来非常方便地解析HT...
python htmlparser怎么用,在Python中高效地使用HTMLParser
2021-04-26 17:07

咕噜噜在芬兰的博客作为对Python regular expression的响应，我尝试使用HTMLParser实现一个HTML解析器：import HTMLParserclass ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self...
python使用HTMLParser解析网页
2020-11-12 23:53

皓0o0的博客 HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类，重写函数便可以使用它进行解析网页了。二、使用步骤 1.引入库代码如下（示例）： from html.parser import HTMLParser 2.
Python的HTMLParser模块：HTML解析的得力工具
2023-10-08 11:00

小雨淋林的博客 HTMLParser模块是Python标准库中的一部分，提供了一个基于事件的HTML解析器。它继承自Python的SGMLParser类，用于将HTML文档解析成一系列事件，并在解析过程中调用相应的处理方法。print(f"开始标签:class ...
在Python中使用HTMLParser解析HTML的教程
2021-01-20 05:11

如果我们要编写一个搜索引擎，第...好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码： from HTMLParser import HTMLParser from htmlentitydefs import name2codepoint class MyHTMLParser(HTMLPa
没有解决我的问题, 去提问

悬赏问题

¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler